4.1 数据挖掘概述
4.1 数据挖掘概述
P2大家好,本次课我们开始学习数据挖掘初步知识,我们需要弄清楚以下几个方面的问题:什么是数据挖掘,为什么要进行数据挖掘,数据挖掘的主要任务,数据挖掘的发展历史,数据挖掘与数据仓库及OLAP的关系,数据挖掘的应用。
P3什么数据挖掘?
从技术角度看,数据挖掘(Data Mining,简称DM)是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识。
P4 为什么要进行数据挖掘
我们知道我们已从信息时代发展到智能时代,每天都有巨量数据产生,数据的爆炸式增长已经从TB级发展到PB级数据。而且有着广泛的丰富数据的来源,如在在商业领域: Web, 电子商务, 电子交易, 股票等等正在产生着大量的数据。在科学领域,如遥感、生物信息学、 科学仿真也在产生着大量的数据。在社会与个人领域,如新闻、数码相机、YouTube也正产生着大量的数据。面对这些巨大的数据量,如何从中挖掘出有益的信息或模式,预测今后的市场走向或产品发展趋势。可见数据是丰富的、巨大的,急需发现隐藏在数据海洋中的知识!
P5 数据挖掘的主要任务
根据发现知识的不同,可以将数据挖掘的任务归纳为以下几类:
关联分析:关联是某种事物发生时其他事物会发生的这样一种联系。例如每天购买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和置信度来描述。关联分析的目的是挖掘隐藏在数据间的满足一定条件的关联关系,如:
buy(computer)→buy(software)
关联规则表示顾客购买计算机和软件之间的关联关系。
时序分析:与关联分析不同,时序分析产生的时序序列是一种与时间相关的纵向联系。例如今天银行调整利率,明天股市的变化。
分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
预测:把握分析对象发展的规律,对未来的趋势做出预见。例如对未来经济发展的判断。
P6 数据挖掘的历史
我们简要看看数据挖掘的历史。数据挖掘一词是在1989年8月于美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成的。1995年开始,每年主办一次知识发现和数据挖掘的国际学术会议,将KDD和DM方面的研究推向了高潮,从此,“数据挖掘”一词开始流行。在中文文献中,DM有时还被翻译为数据采掘、数据开采、知识提取、数据考古等。
P7数据挖掘的历史
通常将数据挖掘视为数据中“知识发现”的同义词,也可以认为数据挖掘是知识发现中的一个步骤。如图所示,知识发现过程包含有:数据预处理、选择与变换、数据挖掘、模式评估与知识表示,其中数据挖掘只是知识发现过程中的一个步骤。但是无论哪种观点都认为数据挖掘是KDD的核心。可见数据挖掘出现已有一段时间,最近几年因为机器学习得到了较大发展,也有力的推动了数据挖掘技术及应用的发展,机器学习这么多算法即为数据挖掘相关算法。
P8 数据挖掘与数据仓库及OLAP的关系
数据挖掘与数据仓库具有融合和互补的关系:(1)数据仓库中的数据可以作为数据挖掘的数据源 (2)数据挖掘的数据源不一定必须是数据仓库。它们的共同之处:都是从数据库的基础上发展起来的,它们都是决策支持新技术。
数据挖掘与OLAP都为数据分析的工具,它们不同在于:(1)数据挖掘是挖掘型的,建立在各种数据源的基础上,重在发现隐藏在数据深层次的对人们有用的模式,并做出有效的预测性分析。(2)OLAP是验证型的,OLAP更多地依靠用户输入问题和假设,建立在多维数据的基础之上 。
P9 数据挖掘的应用
数据挖掘的应用领域很广泛,它是科学研究最热门的研究领域之一,现在正在与大数据技术、机器学习紧密结合起来。在市场营销领域,通过数据挖掘等技术可以获得隐藏在各种数据中的有利信息,从而帮助商家进一步调整营销策略。数据挖掘在金融领域应用很深入,几乎所有银行系统都应用了数据挖掘技术,如对客户信息等级进行划分。在电信领域,运用已有的知识和经验,通过数据挖掘技术对用户信息的真伪性、有用性进行辨识和甄别。在辅助医疗中,可对大量历史诊断数据进行分析和挖掘,有助于医生对病人的病情进行有效的判断。可见数据挖掘在学术领域及商业领域有着广泛而有价值的应用。
P10 数据挖掘的未来展望
当前数据挖掘已经成为计算机科学界的一大热点,但研究与开发的总体水平相当于数据库技术在70年代所处的地位。数据挖掘领域的主要研究包括以下几个方面:
(1)各种新的数据挖掘算法的研究,特别是和相关领域相结合的数据挖掘算法,如序列模式挖掘、生物信息挖掘等可能成为热点。
(2)数据挖掘语言的形式化描述。即研究专门用于知识发现的数据挖掘语言,也许会像SQL 语言一样走向形式化和标准化。
(3)寻求数据挖掘过程中的可视化方法 使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互。
(4)研究在网络环境下的数据挖掘技术,特别是在因特网上的Web挖掘。
(5)加强对各种非结构化数据的挖掘,如对文本数据 、图形数据、视频图像数据、声音数据乃至综合多媒体数据的挖掘。
(6)大数据挖掘。大数据又称海量数据,指的是所涉及的数据规模巨大,以至于目前已有的软件工具无法在合理时间内,处理、管理、挖掘这些数据。如何将大数据组织架构和并行性、分布式算法结合实施大数据挖掘是一个主流的研究方向。
P11总结
好了,到此本次课就要结束了,我们做一个简短的回顾。数据挖掘是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息、模式、知识的过程。这些信息、模式、知识往往不一定有逻辑性或相关性,但是却真切存在的,对今后的业务或事务有着较好的指导或预测作用。 数据挖掘技术发展已有多年并在广泛领域得到应用,常见的数据挖掘任务有关联分析、时序分析、聚类分析、分类分析、预测等等。好,这次课到此结束,谢谢!