教学设计
教学内容设计:
课程内容框架体系见表4。
表4 课程内容框架体系
课程单元 |
单元内容 |
单元目标 |
单元一:大数据快速运算概述 |
1. 概述 2. 大数据的时代特征 3. 大数据运算面临的挑战 4. 大数据运算关键技术 5. 大数据管理主流技术 6. 大数据运算主流技术 7. Spark生态系统 |
1. 掌握大数据关键术语 2. 理解大数据的内涵与外延 3. 理解大数据运算面临的挑战 4. 了解大数据运算的关键技术 5. 了解大数据管理主流技术 6. 了解大数据运算主流平台 7. 了解Spark生态系统 |
单元二:Scala编程基础 |
1. Scala概述 2. Scala与Spark 3. Scala环境安装 4. 经典WordCount编程 5. Scala基础知识 6. Scala面向对象编程 7. Scala函数式编程 8. 结合Scala和Java |
1. 理解应用Scala的理由 2. 理解Scala在Spark中的角色 3. 掌握基于Spark环境下Scala版本的选择 4. 掌握Scala环境安装方法 5. 掌握Scala编程必要的基础知识 6. 了解Scala与Java关系 |
单元三:Spark环境部署与入门 |
1. Spark环境配置 2. Spark Shell 3. Spark运行架构 4. 配置Spark开发环境 5. 经典WordCount编程 6. 由WordCount剖析Spark运行过程 7. 程序打包与运行 |
1. 掌握Spark环境配置的过程及注意事项 2. 掌握Spark Shell基本命令 3. 理解Spark不同运行架构 4. 掌握Spark开发环境配置方法 5. 理解Spark内部运行过程,并掌握其中涉及的关键术语 6. 掌握程序打包与运行的方法 |
单元四:Spark编程 |
1. RDD概述:种类、特性、实现原理 2. RDD操作:创建操作、转换、控制操作和行动操作 3. 向Spark传递函数 4. 键值对操作 5. RDD的容错机制 6. RDD的依赖关系 7. Spark存储:RDD、Shuffle、序列化和压缩 8. Spark共享变量:累加器、广播变量 9. 数据分区操作 |
1. 理解RDD基本理论知识与实现原理 2. 掌握RDD编程基础知识 3. 掌握RDD向Spark传递函数方法 4. 掌握键值对操作 5. 理解RDD的容错机制和 6. 理解RDD间依赖关系 7. 掌握数据分区实现过程 8. 理解Spark存储原理与实现过程 9. 掌握Spark共享变量的实现过程 10. 掌握数据分区的实现过程 |
单元五:Spark获取数据 |
1. 获取数据的动机 2. 获取数据文件的格式 3. 文件系统数据的获取 4. 从数据库中获取数据 |
1. 理解获取数据的动机 2. 掌握常见数据文件格式 3. 掌握从常见文件系统中获取数据的方法,例如:HDFS 4. 掌握从常见数据库中获取数据的方法,例如:HBase、Hive |
单元六:Spark SQL |
1. Spark SQL背景知识 2. DataFrame与RDD 3. Spark SQL运行原理 4. Spark SQL数据源 5. Spark SQL CLI 6. Spark SQL与JDBC 7. Spark SQL与Hive自定义函数 |
1. 了解Spark SQL背景知识 2. 理解DataFrame与RDD区别与联系 3. 理解Spark SQL运行原理 4. 了解Spark SQL读取数据源 5. 掌握Spark SQL CLI基本操作 6. 掌握Spark SQL通过JDBC操作数据库的方法 7. 掌握Spark SQL操作Hive自定义函数的方法 |
单元七:Spark Streaming |
1. 流计算的基本概念 2. Spark Streaming与Storm 3. Spark Streaming编程模型 4. Spark Streaming运行原理 5. Spark Streaming与Kafka |
1. 掌握流式计算的基本知识:背景、相关术语、与批量大数据计算的区别 2. 理解典型流式计算系统Spark Streaming与Storm的异同 3. 掌握Spark Streaming编程基本知识 4. 掌握Spark Streaming与Kafka实现小案例的过程 |
单元八:Spark MLlib |
1. 机器学习概述 2. Spark MLlib与机器学习 3. Spark MLlib基本知识 4. 线性模型 5. 分类模型 6. 集成学习 7. 特征处理与转换 8. 聚类 9. 频繁模式挖掘 10. 协同过滤 |
1. 理解机器学习基本概念 2. 理解Spark MLlib与机器学习的关系 3. 掌握Spark MLlib用法 4. 掌握Spark MLlib线性模型实现方法 5. 掌握Spark MLlib分类模型实现方法 6. 掌握Spark MLlib集成学习实现方法 7. 掌握Spark MLlib特征处理与转换实现方法 8. 掌握Spark MLlib聚类实现方法 9. 掌握Spark MLlib实现频繁模式挖掘的方法 10. 掌握Spark MLlib实现协同过滤的方法 |