9.3空间数据挖掘

 

空间数据挖掘

 

[P1] 作为数据挖掘重要分支的  空间数据挖掘 是指从 空间数据库 中抽取未显示的、为人们感兴趣的空间模式和特征、空间和非空间数据之间的概要关系 以及 其他概要数据特征。本章节简要介绍空间数据挖掘的概念和相关技术。

 

[P2] 这章内容主要从三个方面来介绍,分别是 空间数据概述、空间数据立方体和空间OLAP、以及空间数据挖掘方法。

 

[P3] 空间数据挖掘 与一般数据挖掘的区别在于 : 空间数据挖掘 的研究对象主要是 空间数据库,它不仅存储了 空间对象 的 属性数据 和 几何属性,而且存储了 空间对象 之间的空间关系,拓扑关系、度量关系、方位关系 等。因此,其存储结构、访问方式、数据分析 和 操作 等 都有别于常规的 事物处理型 数据库模式。

 

[P4] 空间数据的基本类型 :空间对象特征 主要包含 空间特征 和 属性特征,所以 空间数据 通常分为 空间数据 和 属性数据。空间数据 通常来源于 航空图片 或 地图,用于表示 空间对象 的几何特征,如某个房屋的坐标位置就是其几何特征。常用的数据模型有 矢量 和 栅格数据模型。属性数据用于表示 空间对象 的 类别特征 和 说明信息,如某个房屋所在的街道和编号等就是其 属性信息。

 

[P5] 矢量数据模型 :矢量数据利用了几何图形,如点、线和面来表现空间对象。例如,在住房细分中以多边形来代表物产边界,以点来精确表示位置。矢量同样可以用来表示具有连续变化性的领域。以二维空间为例,点对象的表示为:[地物编号;(x,y)]。例如,如图所示,共有11个点,它们分别表示为[1;(2,2)]、[2;(3,1)]、…、[11;(9,5)] 。

 

[P6] 多边形对象的表示为 : [地物编号 ; 点序列]。例如,面 A 的表示为 [4;6,10,9,8,7,6]。矢量数据模型的特点:最适应空间对象的计算机表示,便于空间运算和分析,严密的数据结构,数据量小,表示地理数据精度高,但数据结构相对复杂。

 

[P7]  栅格数据模型将空间划分为规则的网格,在各个网格上给出相应的属性值来表示地理对象的一种数据组织形式。栅格数据模型对二维地理要素的属性进行离散化,每个网格对应一个属性值,其空间位置用行和列标识,空间关系就隐含在行和列中。

 

[P8] 如图所示,左边是一幅地图,由3个区域组成,它们的属性编号分别是 2、5、7,右边是对应的栅格数据表示。在栅格数据模型中,点实体由一个栅格像元来表示:线实体由一定方向上连接成串的相邻栅格像元表示;面实体区域由具有相同属性的相邻栅格像元的块集合来表示。一幅地图可以用一个栅格树来表示。栅格数据模型的特点:数据直接记录属性的指针或属性本身,而其所在位置则根据行列号转换成相应的坐标给出,也就是说,定位是根据数据在数据集合中的位置得到的,因此数据结构简单,但图形数据量大,精度较低。利用栅格或矢量数据模型来表示空间对象既有优点,也有缺点。栅格数据设置在面内所有的点上都记录同一个值,而矢量格式只在需要的地方存储数据,这就使得前者所需的存储空间大于后者。对于栅格数据可以很轻易地实现覆盖操作,而对于矢量数据来说要困难得多。矢量数据可以像在传统地图_上的矢量图形一样被显示出来,而栅格数据在以图像显示时显示对象的边界将呈现模糊状。

 

[P9] 空间数据的复杂性 : 由于空间数据具有空间实体的位置、大小、形状、方位及几何拓扑关系等信息,使得空间数据的存储结构和表现形式比传统事务型数据更为复杂,空间数据的复杂特性表现如下。第一,空间属性间的非线性关系:由于空间数据中蕴含着复杂的拓扑关系,因此,空间属性间呈现出一种非线性关系。这种非线性关系是空间数据挖掘中需要进一步研究的问题。第二,空间数据的尺度特征。空间数据的尺度特征是指在不同的层次上,空间数据所表现出来的特征和规律都不尽相同。第三,空间信息的模糊性。空间信息的模糊性是指在各种类型的空间信息中,包含大量的模糊信息,如空间位置、空间关系的模糊性等。正是由于空间数据的复杂性,导致空间数据挖掘的技术难度更大,涉及的技术问题更多。

 

[P10] GIS 和 SDBMS 。GIS,地理信息系统 提供了便于分析地理数据和将地理数据可视化的机制。地理数据就是以地球表面作为基本参照框架的空间数据。GIS提供了一套丰富的分析功能,可以对地理数据进行相应的变换。SDBMS(空间数据库管理系统)是进行空间数据管理和操作的软件,使用专门的索引和查询处理技术完成任务,它继承了传统 数据库管理系统 所提供的并发控制机制,让多个用户同时访问共享空间数据,并保持数据一致性。利用 GIS 可以对某些空间对象和图层进行多种操作。利用通常 GIS 可以作为 SDBMS 的前端,在 GIS 对空间数据进行分析之前,先通过 空间数据库管理系统 访问这些数据。

 

[P11] 空间数据立方体:空间数据像关系数据一样,可以集成空间数据集,构建有利于空间数据挖掘的数据仓库。空间数据仓库是一个面 向主题、集成、以时间为变量、持续采集空间与非空间数据的多维数据集合,组织和汇总成一个由一组维度和度量值定义的多维结构,即空间数据立方体,用以支持地理空间数据挖掘技术和决策支持过程。在空间数据立方体中,维度是数据立方体的一种结构特性,是描述事实数据表中数据级别有组织的层次结构,包括非空间维度、空间 到 非空间维度、空间 到 空间维度。度量值是在数据立方体内基于该数据立方体的事实数据表中某列的一组值, 它们通常是数字,包括数值度量、空间度量。成员属性是维度表的一个可选特性,为最终用户提供成员的其他信息,仅从属于级别。

 

[P12]  空间 OLAP 是共享多维信息、针对特定问题的联机数据访问和分析的软件技术,具有汇总、合并、聚集以及从不同角度观察空间信息的能力。空间 OLAP 可以跨越空间数据库模式的多个版本,处理来自不同组织的信息和由多个数据存储集成的信息。对空间数据立方体进行的多维数据分析主要有切块、切片、旋转、钻取等分析动作,其目的是进行跨维、跨层次的计算与建模。有了 空间数据立方体 和 空间 OLAP 的有效实现,基于泛化的描述性空间挖掘,如空间特化和区分,可以有效地进行。

 

[P13] 空间数据挖掘方法:第一,空间分析方法,利用GIS的各种空间分析模型和空间操作对GIS数据库中的数据进行深加工,从而产生新的信息和知识。第二,空间统计分析方法,统计分析一直是分析空间数据的常用方法,着重于空间物体和现象的非空间特性分析。统计方法有较强的理论基础,拥有大量成熟的算法。目前地理空间统计模型大致可分为以下三类:地统计、网格空间模型、空间点分布形态。第三,空间关联分析,空间关联分析用于发现 空间实体 间的相互作用、空间依存、因果 或 共生 的模式,主要包括目标之间相离、相邻、相连、共生、包含、被包含、覆盖、被覆盖、交叠等规则,也称之为空间相关关系。第四,空间分类方法,空间分类的目的是 在空间数据库对象 的 空间属性 和 非空属性 之间发现 分类规则。与 基于关系数据库的分类 之间最大区别在于 分析空间对象时不仅要考虑目标对象的非空间属性,而且还要考虑其邻接对象的非空间属性对其类别的影响。第五,粗集分类方法。第六,空间聚类方法。

 

[P14] 最后总结一下,这章主要是介绍了空间数据挖掘。空间数据挖掘 与一般数据挖掘的区别在于 : 空间数据挖掘 的研究对象主要是 空间数据库,它不仅存储了 空间对象 的 属性数据 和 几何属性,而且存储了 空间对象 之间的空间关系,拓扑关系、度量关系、方位关系 等。因此,其存储结构、访问方式、数据分析 和 操作 等 都有别于常规的 事物处理型 数据库模式。

最后修改: 2023年04月20日 星期四 10:38