教学设计

教学内容设计:

课程内容框架体系见表4。

4 课程内容框架体系

课程单元

单元内容

单元目标

单元一:大数据快速运算概述

1. 概述

2. 大数据的时代特征

3. 大数据运算面临的挑战

4. 大数据运算关键技术

5. 大数据管理主流技术

6. 大数据运算主流技术

7. Spark生态系统

1. 掌握大数据关键术语

2. 理解大数据的内涵与外延

3. 理解大数据运算面临的挑战

4. 了解大数据运算的关键技术

5. 了解大数据管理主流技术

6. 了解大数据运算主流平台

7. 了解Spark生态系统

单元二:Scala编程基础

1. Scala概述

2. Scala与Spark

3. Scala环境安装

4. 经典WordCount编程

5. Scala基础知识

6. Scala面向对象编程

7. Scala函数式编程

8. 结合Scala和Java

1. 理解应用Scala的理由

2. 理解Scala在Spark中的角色

3. 掌握基于Spark环境下Scala版本的选择

4. 掌握Scala环境安装方法

5. 掌握Scala编程必要的基础知识

6. 了解Scala与Java关系

单元三:Spark环境部署与入门

1. Spark环境配置

2. Spark Shell

3. Spark运行架构

4. 配置Spark开发环境

5. 经典WordCount编程

6. 由WordCount剖析Spark运行过程

7. 程序打包与运行

1. 掌握Spark环境配置的过程及注意事项

2. 掌握Spark Shell基本命令

3. 理解Spark不同运行架构

4. 掌握Spark开发环境配置方法

5. 理解Spark内部运行过程,并掌握其中涉及的关键术语

6. 掌握程序打包与运行的方法

单元四:Spark编程

1. RDD概述:种类、特性、实现原理

2. RDD操作:创建操作转换、控制操作和行动操作

3. 向Spark传递函数

4. 键值对操作

5. RDD的容错机制

6. RDD的依赖关系

7. Spark存储:RDD、Shuffle、序列化和压缩

8. Spark共享变量:累加器、广播变量

9. 数据分区操作

1. 理解RDD基本理论知识与实现原理

2. 掌握RDD编程基础知识

3. 掌握RDD向Spark传递函数方法

4. 掌握键值对操作

5. 理解RDD的容错机制和

6. 理解RDD间依赖关系

7. 掌握数据分区实现过程

8. 理解Spark存储原理与实现过程

9. 掌握Spark共享变量的实现过程

10. 掌握数据分区的实现过程

单元五:Spark获取数据

1. 获取数据的动机

2. 获取数据文件的格式

3. 文件系统数据的获取

4. 从数据库中获取数据

1. 理解获取数据的动机

2. 掌握常见数据文件格式

3. 掌握从常见文件系统中获取数据的方法,例如:HDFS

4. 掌握从常见数据库中获取数据的方法,例如:HBase、Hive

单元六:Spark SQL

1. Spark SQL背景知识

2. DataFrame与RDD

3. Spark SQL运行原理

4. Spark SQL数据源

5. Spark SQL CLI

6. Spark SQL与JDBC

7. Spark SQL与Hive自定义函数

1. 了解Spark SQL背景知识

2. 理解DataFrame与RDD区别与联系

3. 理解Spark SQL运行原理

4. 了解Spark SQL读取数据源

5. 掌握Spark SQL CLI基本操作

6. 掌握Spark SQL通过JDBC操作数据库的方法

7. 掌握Spark SQL操作Hive自定义函数的方法

单元七:Spark Streaming

1. 流计算的基本概念

2. Spark Streaming与Storm

3. Spark Streaming编程模型

4. Spark Streaming运行原理

5. Spark Streaming与Kafka

1. 掌握流式计算的基本知识:背景、相关术语、与批量大数据计算的区别

2. 理解典型流式计算系统Spark Streaming与Storm的异同

3. 掌握Spark Streaming编程基本知识

4. 掌握Spark Streaming与Kafka实现小案例的过程

单元八:Spark MLlib

1. 机器学习概述

2. Spark MLlib与机器学习

3. Spark MLlib基本知识

4. 线性模型

5. 分类模型

6. 集成学习

7. 特征处理与转换

8. 聚类

9. 频繁模式挖掘

10. 协同过滤

1. 理解机器学习基本概念

2. 理解Spark MLlib与机器学习的关系

3. 掌握Spark MLlib用法

4. 掌握Spark MLlib线性模型实现方法

5. 掌握Spark MLlib分类模型实现方法

6. 掌握Spark MLlib集成学习实现方法

7. 掌握Spark MLlib特征处理与转换实现方法

8. 掌握Spark MLlib聚类实现方法

9. 掌握Spark MLlib实现频繁模式挖掘的方法

10. 掌握Spark MLlib实现协同过滤的方法

最后修改: 2021年11月19日 星期五 08:51