1.1数据仓库的概念与特点

1.1数据仓库的概念与特点

 

P1大家好,我们今天开始学习数据仓库与数据挖掘这门课程。大家知道数据库管理系统出现在60年代,到如今数据库技术在现代企事业单位应用非常广泛,是现代信息化应用的基础,正是由于众多企事业单位多年来应用了数据库应用系统,各个单位积累了大量的历史数据,如何从这些历史数据中挖掘出潜在的、未知的、有用的信息就成为当前和今后的重要研究课题。90年代以后进入数据处理大发展时期,各种数据模型、数据库新技术层出不穷地涌现,如数据仓库和数据挖掘、商务智能、多媒体数据库和Web数据库。本门课程聚集于数据仓库与数据挖掘技术、原理及应用,为大家今后在数据挖掘与数据分析领域进一步学习和工作打下扎实的基础。

P2本次课我们将学习以下几个方面的内容:即数据仓库的概念、特点和方法论。

    P3数据仓库的概念与特点

首先我们来看看数据仓库的概念,美国著名信息工程学家William H教授,被世人誉为数据仓库之父。他于1993年出版了一本专著《建立数据仓库》,是数据仓库的经典之作,值得大家去学习。我们一般认为数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持(DDS)。这一概念反映了数据仓库有以下特点:面向主题、集成的、相对稳定的、反映历史变化。

P4(1)面向主题,是指用户使用数据仓库进行决策时所关心的重点领域,也就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。 如图所示,在人寿保险公司里,高层管理者可能关心的主题是顾客数据、保单数据和保费数据,对应这些主题数据就从原有的寿保数据库、财产保险系统、财保数据中综合归类得到。

P5(2)集成,是指数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作。 如图所示,新建设的数据仓库需要从A应用、B应用、C应用中抽取性别字段,但A应用使用了m、f表示性别,B应用使用0、1表示性别,C应用使用男、女表示性别,即三个应用中性别的表示是不同格式的,故而在抽取时要进行数据格式转换。

P6相对稳定性,因为操作型数据库系统中一般只存储短期数据,因此其数据是不稳定的,它记录的是系统中数据变化的瞬态。数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。如图所示,数据仓库只抽取了原有应用数据库中2004至2013年的数据,之后数据仓库中的数据就暂时不会变化,只用于外部用户对其访问操作。

P7反映历史变化的,因为数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作型应用系统中接收新的数据内容,这使得数据仓库中的数据总是拥有时间维度。

如图所示,应用数据库中只保留60至90天内的数据,而数据仓库每2个月就要从应用数据库中批量载入最新的数据,便利数据仓库中保留了过去5至10以来的所有数据。

P8数据挖掘的概念与方法

数据挖掘的概念(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD)。通俗来说,数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

一般可将数据挖掘方法分为直接法和间接法。

我们有必要弄清楚数据仓库与数据挖掘的关系。若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作,所以说数据挖掘是从数据仓库中找出有用信息的一种过程与技术。

P9 数据仓库的技术与方法

数据仓库中的技术、方法与产品是众多的,首先我们需要对联机事务处理(OLTP)与联机分析处理(OLAP)的比较,能够充分数据仓库与一般数据库所处理信息的方式是不同的。其次我们要深刻了解OLAP技术的有关概念 ,如多维数据集、维度、度量值和多维分析,还要了解OLAP根据其存储数据的方式可分为三类:ROLAPMOLAPHOLAP,以及OLAP工具。

P10我们需要理解数据仓库实施中的三个关键技术:数据抽取、数据存储与管理、数据表现。在数据分析领域中,前期对数据抽取、存储与管理的准备工作可能占据了70%以上的工作量,而具体数据分析算法实现过程往往非常短暂。

我们需要理解数据仓库实施方法论。数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导致项目实施失败。

P11大家要了解OLAP与OLTP的概念与区别。数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作;OLAP系统则强调数据分析,强调SQL执行市场,强调磁盘I/O,强调分区等。

   P12数据仓库与操作型数据库的关系

传统的数据库技术是以单一的数据资源,即数据库为中心,进行联机事务处理(OLTP)、批处理、决策分析等各种数据处理工作,主要的划分为两大类:操作型处理和分析型处理(或信息型处理)。

传统数据库系统侧重于企业的日常事务处理工作,但难于实现对数据分析处理要求,已经无法满足数据处理多样化的要求。操作型处理和分析型处理的分离成为必然。

近年来,随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的,面向分析的环境,以更好支持决策分析,从而形成了数据仓库技术。

如图所示,我们可以对比操作型数据与分析型数据系统的区别。如操作型数据关注数据的细节、存取的是即时数据、对系统的性能要求较高、是面向应用的、支持日常操作,而分析型数据关注的数据的综合、分析的对象是历史数据、对系统性能要求较为宽松、是面向分析的、支持管理需求。

P13总结

好了,到此本次课就要结束了,我们做一个简单的回顾。本次课主要介绍了数据仓库的概念与特点,数据挖掘的概念与方法,以及数据仓库的技术及方法论。通过课程学习我们知道数据仓库是一个特殊的数据库,其特殊性体现在它的数据具有面向主题、集成、不可修改和随时间变化等4个特征,其目的是支持企业的管理决策而不是支持事务管理。数据挖掘是从数据仓库中找出有用信息的一种过程与技术,是从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。

   好,这次课到此结束,谢谢!

Last modified: Thursday, 20 April 2023, 10:09 AM