数据挖掘与数据仓库（共享）: 4.2 数据挖掘方法与技术

4.2 数据挖掘方法与技术

P2大家好，本次课我们学习数据挖掘方法与技术有哪些，让我们对数据挖掘方法与技术有初步知识，以便我们学好以后的内容。以下是本次要学习的内容：频繁模式、分类与回归、聚类分析、离异点分析、数据挖掘涉及的学科。

P3 频繁模式

数据挖掘处理的数据一般称为数据集，数据集是由若干数据项构成，这些数据项集合称为项集。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指频繁在事务数据集中一起出现的商品集合，按专业术语来解释，频繁项集是指支持度大于等于最小支持度的集合。这里大家需要理解两个概念，支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型，也是数据挖掘研究课程题中一个很重要的研究基础，它可以告诉我们在数据集中经常一起出现的变量，为可能的决策提供一些支持。例如：在超市的销售中哪些商品会频繁地一起被购买? 频繁模式挖掘的一个经典例子是"啤酒和尿布"了，在分析超市的购物清单时，发现买啤酒的人经常也买尿布。频繁模式常与关联规则对应。

P4 分类与回归

在机器学习中，分类属于有监督学习，即从给定的有标记训练数据集中学习一个函数，当未标记数据到来时，可以根据这个函数预测结果。在数据挖掘领域，分类可以看成是从一个数据集到一组预先定义的、非交叠的类别的映射过程。其中映射关系的生成以及映射关系的应用就是数据挖掘分类方法主要的研究内容。映射关系即分类函数或分类模型（分类器），映射关系的应用就是使用分类器将数据集中的数据项划分到给定类别中的某一个类别的过程。如构建病人的温度、脉搏，是否打喷嚏等体表特征和感冒之间的映射关系，根据病人的体表特征预测病人是否感冒。

回归分析目的在于了解两个或多个变量间是否相关、相关方向与强度，并建立数学模型以便观察特定变量来预测研究者感兴趣的变量，主要包括线性回归分析和非线性回归分析。如手机的用户满意度与产品的质量、价格和形象有关，以“用户满意度”为因变量，“质量”、“形象”和“价格”为自变量，作线性回归分析。得到回归方程，利用训练数据集建立该模型后就可以根据各品牌手机的质量、价钱和形象，预测用户对该手机的满意程度。

分类与回归都是针对一个输入做出一个输出预测，都需要一个分类器（即分类函数或回归函数），它们的一个重要区别在于输出变量的类型。分类与标签预测是找出描述和区分数据类或概念的模型或函数，以便能够使用模型预测类标号未知的对象的类标号。分类是预测输入数据的类别（离散的、无序的）标号。回归是建立连续值函数模型，也就是用来预测缺失的或难以获得的数值数据值。典型分类与回归方法有：决策树，朴素贝叶斯分类，支持向量机，神经网络，规则分类器，逻辑回归等。

P5 聚类分析

聚类是不同分类的一种数据挖掘方法，聚类所要求划分的类是未知的，不需要我们预先知道某种外在于数据本身的类别信息。聚类就是把一些对象划分为多个组或者“聚簇”，从而使得同组内对象间比较相似而不同组对象间差异较大，在机器学习中称为“无监督的学习”。例如：通信公司根据“工作时间通话时长”、“其他时间通话时长”、“本地通话时长”等属性对用户进行聚类分析，可以将用户划分为“商务用户”、“普通用户”以及“较少使用用户”，并且根据聚类的结果来设计套餐。

P6离群点检测

离群点是指全局或局部范围内偏离一般水平的观测对象。离群点检测是数据挖掘中重要的一部分，它的任务是发现与大部分其他对象显著不同的对象。大部分数据挖掘方法都将这种差异信息视为噪声而丢弃，然而在一些应用中，罕见的数据可能蕴含着更大的研究价值。离群点检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。因此一个好的异常检测器必须具有高检测率和低误报率。离群点检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式、生态系统扰动等。离群点的检测已经被广泛应用于电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。例如：当发现某个人的信用卡在不经常消费的地区短时间内消费了大量的金额，则可以认定这张卡的使用情况异常，可以作为离群点数据。

P7 数据挖掘涉及到的学科

数据挖掘是一门交叉的学科，涉及计算机、统计学、模式识别、机器学习、高性能计算和数据库技术等。在大数据时代，数据挖掘被赋予了更丰富的含义，研究范围也有了相应的拓展。

P8 统计学

统计学是数据挖掘的重要基础学科。统计学是通过对数据进行收集、整理、分析和描述，来达到对研究对象本质的理解和表示。在实际生活中，通常有一些过程无法通过理论分析直接获得模型，但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据，用来刻画这些变量之间关系的数学函数称为统计模型。

P9 机器学习

机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据，并作出智能的判断，并通过获得的新的知识对自身进行发展和完善。机器学习的许多算法直接或间接来自于数据挖掘。机器学习方法：包括监督学习、无监督学习、半监督学习等，其中监督学习需要在有标记的数据集上进行，类似于数据挖掘的分类方法。

P10模式识别

模式识别的本质就是抽象出不同事物中的模式，并根据这些模式对事物进行分类或聚类的过程。研究内容：文字识别、语音识别、图像识别、医学诊断以及指纹识别等。

P11高性能计算

高性能计算是指突破单个计算机资源不足的限制，使用多个处理器或多台计算机共同完成同一项任务的计算环境。

P12总结

好了，到此本次课就要结束了，我们做一个简短的回顾。数据挖掘可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web数据挖掘等。这些方法从不同的角度对数据进行挖掘。好，这次课到此结束，谢谢！

Last modified: Thursday, 20 April 2023, 10:16 AM