数据挖掘与数据仓库（共享）: 3.2 数据处理技术

3.2 数据处理技术

P2大家好，本次课我们学习数据处理方技术，以下是本次要学习的内容：数据预处理、数据清理。

P3 数据预处理概述

现实世界中数据大体上都是不完整、不一致的脏数据，无法直接进行数据挖掘，或挖掘结果不尽如人意。没有高质量的数据就没有高质量的挖掘结果。为了提高数据挖掘的质量，产生了数据预处理技术，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。

数据预处理包括数据清理、数据集成、数据变换和数据归约等，通过数据预处理，使数据转换为可以直接应用数据挖掘工具进行挖掘的高质量数据。数据清理包括填写空缺的值，平滑噪声数据，识别、删除孤立的点，解决数据不一致性；数据集成可以集成多个数据库或文件；数据变换主要实现数据规范化和聚集；数据规约得到数据集的压缩表示，规约后的数据集小得多，但可以挖掘得到相同或相似的结果。数据离散化是数据规约的一部分，通过概念分层和数据的离散化来规约数据，对数字型的数据特别重要

P4 数据清理

数据清理也可称为数据清洗。数据清理是把“脏数据”“洗掉”，包括检查数据一致性，处理无效值和缺失值等。迄今为止，数据清洗还没有公认的定义，不同的应用领域对其有不同的解释。数据清洗的原理为：利用有关技术，如统计方法、数据挖掘方法、模式规则方法等，将脏数据转换为满足数据质量要求的数据。

P5处理空缺值。

首先我们分析引起空缺值的原因有哪些？可能导致数据空缺的情况有：设备异常、与其他已有数据不一致而被删除、因为误解而没有被输入的数据、在输入时有些数据因为得不到重视而没有被输入、对数据的改变没有进行日志记载、空缺值要经过推断而补上。

P6如何处理空缺值？

1）忽略元组。若一条记录中有属性值被遗漏了，则将该记录排除在数据挖掘之外，但是，当某类属性的空缺值所占百分比很大时，直接忽略元组会使挖掘性能变得非常差

2）忽略属性列。若某个属性的缺失值太多，则在整个数据集中可以忽略该属性。

P7 如何处理空缺值？

3）人工填写空缺值。但是这种方式的工作量大，可行性低

4）使用属性的中心度量值填充空缺值。如果数据的分布是正常的，就可以使用均值来填充缺失值，如果数据的分布是倾斜的，可以使用中位数来填充缺失值。

P8 如何处理空缺值？

5）使用一个全局变量填充空缺值。对一个所有属性的所有缺失值都使用一个固定的值来填补（如“Not sure”或∞）。

6）使用可能的特征值来替换空缺值（最常用）。生成一个预测模型，来预测每个丢失值。如可以利用回归、贝叶斯计算公式或判定树归纳确定，推断出该条记录特定属性最大可能的取值

P9消除噪声数据

噪声是被测量的变量产生的随机错误或误差，产生噪声的原因主要有：数据收集工具的问题、数据输入错误、数据传输错误、技术限制、命名规则的不一致。

P10如何检测噪声数据

基于统计的技术。主要基于距离度量值（如马氏距离），使用样本协方差矩阵方法计算出每个多元数据点i的马氏距离。具体计算方法请大家参考PPT中的算法。

P11 消除数据不一致性

数据的不一致性，就是指各类数据的矛盾性、不相容性。数据库系统都会有一些相应的措施来解决并保护数据库的一致性，可以使用数据库系统来保护数据的一致。通过描述数据的元数据来消除数据命名的不一致，通过专门的例程来消除编码的不一致等等。

P12 数据集成

数据集成是将多个数据源中的数据整合到一个一致的数据存储（如数据仓库）中，由于数据源的多样性，这就需要解决可能出现的各种集成问题。数据集成的对象数据特点是：不同来源、格式不同、特点不同和性质不同，这些数据源可以是关系型数据库、数据立方体或一般文件。数据集成时需要统一原始数据中的所有矛盾之处，如字段可能是同名异义，也可能是字段的单位不统一、字段的字长不一致等。另外集成多个数据源时，经常会出现冗余数据，常见的有属性冗余，如果一个属性可以由另外一个表导出，则它是冗余属性，例如“年薪”可以由月薪计算出来。

P13 数据变换

数据变换的作用就是将数据转换为易于进行数据挖掘的数据存储形式。最常见的数据变换方法是规格化，即将属性数据按比例缩放，使之落入一个小的特定区间。下面介绍几种常见的数据变换方法。（1）最小－最大规范化。例如，某属性规格化前的取值区间为[-100，100]，规格化后的取值区间为[0，1]，采用最小-最大规格化属性值66，变换方式为：0.83。（2）零-均值规格化。例如，某属性的平均值、标准差分别为80、25，采用零-均值规格化66：-0.56。（3）小数定标规格化。例如，属性A规格化前的取值区间为[-120，110]，采用小数定标规格化66，A的最大绝对值为120，j为3，66规格化后为：0.066

P14数据归约

数据归约又称数据约简或数据简化。对于大数据集，通过数据归约可以得到其归约表示，它小得多，但仍接近于保持原数据的完整性，这样在归约后的数据集上挖掘将更有效，并产生相同的分析结果。

数据归约主要有属性归约和记录归约两类。属性归约又称为维归约、属性子集选择、特征子集选择，它通过删除不相关的或冗余的属性减小数据集。目标是找出最小属性集，使得数据在其上的概率分布尽可能地接近在原属性集上的概率分布。如图所示，通过数据归约，将原数据列减少一半，将原数据行减少到十分之一。记录归约是指通过用少量记录代表或替换原有记录来减小数据集。记录归约的基本方法有抽样和数据概化。

P15总结

好了，到此本次课就要结束了，我们做一个简短的回顾。数据清理技术是构建数据仓库和进行数据挖掘的重要技术，实际中的数据往往是不完整、不一致的脏数据，无法直接进行数据挖掘，或挖掘结果不尽如人意。没有高质量的数据就没有高质量的挖掘结果。为了构建科学的数据仓库和提高数据挖掘的质量，产生了数据预处理技术，大大提高了数据挖掘与分析的质量，降低实际数据分析所需要的时间。好，这次课到此结束，谢谢！

最后修改: 2023年04月20日星期四 10:15