本课程的学习者为获得国民教育系列专科或以上学历的、注册专业学历、选修计算机科学与技术以及大数据科学与大数据技术本科专业的学习人员,以社会在职人员为主。
本课程是数据科学与大数据专业开设的专业基础课和学位课。
随着大数据时代的到来,未来30年将对计划经济和市场经济进行重新定义。数据,在近几年迅速转变为企业不可或缺的重要生产资料,数据分析和数据挖掘能力正驱动着一个个企业的未来发展。本课程本系统介绍了数据仓库和数据挖掘技术的基本概念、基本方法、相关技术及最新发展。通过本课程的学习,使学生对数据仓库和数据挖掘的整体结构、概念和技术有深入的认识和了解,并且熟悉相关算法的基本原理,提高学生分析数据的思维能力和计算能力等。
本课程在人才培养体系中主要是培养学生的数据分析、数据挖掘技术应用能力,是大数据分析与应用、大数据存储与运输等课程的先修课程。
1、课程考核要求:
课程最终成绩由平时成绩和期末考试两部分组成,各占50%。其中平时成绩覆盖本学习平台中的单元测试、模拟测试、讨论等,期末考试由各教学点学期末统一组织考试。
本课程平时成绩以形成性考核成绩为主。6月19日前学生完成形成性考核;6月25日前,辅导教师完成形成性考核评阅。
2、作业批改要求
辅导教师需要批改课程讨论内容,检查单元测试(系统自动评阅)的完成情况,并督促学生在学习期限内完成测试。
表1《数据挖掘与数据仓库》课程考核方式
成绩类型
考核形式
满分
开放时间
平时成绩
(50%)测验
(75%)单元一: 数据仓库的概念与体系结构测试
7.5
2024/03/12-2024/06/19
单元二:数据仓库的数据存储与处理测试
7.5
单元三:OLAP与数据处理单元三测试
7.5
单元四:数据挖掘技术测试
7.5
单元五:聚类数据测试
7.5
单元六:关联分析测试
7.5
单元七:数据分类测试
7.5
单元八:统计分析测试
7.5
单元九:文本、Web及空间数据挖掘测试
7.5
期末模拟测试
7.5
讨论
(25%)实时讨论1(实时):数据仓库概念、特点、内涵及应用
5
2024/04/11 19:00-20:00
实时讨论2(实时):数据挖掘概念、内涵、特点及应用场景
5
2024/05/13 19:00-20:00
主题讨论三(非实时):数据仓库与数据库系统的区别与联系
5
2024/03/12-2024/06/19
主题讨论四(非实时):据预处理过程与方法
5
主题讨论五(非实时):OLAP与OLTP的关系与区别
5
期末成绩
(50%)期末考试
100
学校安排
课程单元
单元内容
单元目标
单元一:数据仓库的概念与体系结构
1. 数据仓库的概念与特点
2. 数据仓库的体系结构
3. 数据仓库的产品及发展
1. 了解数据在企事业单位中的价值
2. 掌握数据仓库的概念、特点与组成
3. 掌握数据挖掘的概念与分析方法
4. 掌握数据仓库与数据挖掘的关系
5. 了解数据仓库OLAP技术、实施方法与环节、产品
6. 掌握独立的数据仓库体系结构
7. 了解数据仓库的产生、发展和未来
单元二:数据仓库的数据存储与处理
1. 数据仓库的设计原则与模式
2. 数据仓库的设计过程
3. 数据仓库的数据ETL过程
4. 多维数据的建模
1. 掌握数据仓库的数据结构
2. 了解状态数据与事件数据概念
3. 了解当前数据与周期数据概念
4. 了解元数据及应用、ELT目标
5. 掌握数据抽取、清洗、转换、加载和索引
6. 掌握多维数据模型及其相关概念
7. 掌握多维数据模型的实现及技术
单元三:OLAP及数据分析
1. OLAP技术
2. 数据处理技术
3. 数据分析
1. 掌握建立数据仓库系统的步骤
2. 理解数据仓库系统的生命周期
3. 建立数据仓库系统的思维模式
4. 掌握数据仓库数据库的设计步骤
5. 掌握基于SQL Server数据仓库的数据库设计
6. 会使用SQL Server建立多维数据模型。
单元四:数据挖掘技术
1. 数据挖掘概述
2. 数据挖掘方法与技术
1.掌握数据挖掘概念与特点
2.理解数据挖掘与数据仓库的关系
3.理解数据挖掘的应用
4.掌握数据挖掘常用方法与技术
单元五:数据聚类
1. 聚类分析概述
2. 聚类分析中相似度的计算方法
3. K-means聚类算法
4. 层次聚类方法
1. 掌握聚类分析概念
2. 掌握连续属性的相似度计算方法
3. 二值离散型属性的相似度计算方法
4. 多值离散属性的相信度计算方法
5. K-means聚类算法的概念及应用
6. 层次聚类方法的基本概念及应用
单元六:关联规则
1. 概念与原理
2. 经典算法
3. 相关研究与应用
1. 掌握关联规划概念及实现原理
2. 掌握Apriori算法
3.掌握提高Apriori算法有效性
3. 了解关联规划分类
4. 会应用SQL Server中的关联规则
单元七:数据分类
1. 数据分类过程
2. k-最邻近分类算法
3. 决策树
4. 贝叶斯分类算法
1.掌握数据分类概念
2.掌握数据分类的过程、评价准则
3.掌握决策树的基本概念及应用
4.掌握贝叶斯网络的算法
5.应用SQL Server中的决策树
单元八:统计分析
1. 线性回归模型
2. 逻辑回归模型
1. 掌握线性回归模型的参数估计
2. 掌握线性回归方程的判定系数
3. 掌握线性回归方程的检验
4. 掌握Logistic回归模型的参数估计
5. 会应用统计软件中的Logistic回归的结果分析
单元九:文本、Web及空间数据挖掘
1. 文本挖掘技术
2. Web挖掘
3. 空间数据挖掘
1. 掌握文本挖掘概念及技术
2. 掌握Web挖掘概念及应用
3. 掌握空间数据挖掘概念及应用
单元
主要内容
学时
各环节学时分配
备注
讲授
实验
实践
讨论、习题课
一
数据仓库的概念与体系结构
6
4
2
二
数据仓库的数据存储与处理
8
4
2
2
三
OLAP及数据分析
8
4
2
2
四
数据挖掘技术
8
4
2
2
五
数据聚类
8
4
2
2
六
关联规则
8
4
2
2
七
数据分类
8
4
2
2
八
统计分析
8
4
2
2
九
文本、Web及空间数据挖掘
6
4
0
2
十
复习与总结
4
4
- 折叠/展开