大数据快速运算（共享）: 课程简介

课程简介

一、课程定位、设计理念

本课程的学习者为计算机系列专科或以上学历的、注册专业学历、选修计算机科学与技术以及大数据科学与大数据技术本科专业的学习人员，以社会在职人员为主。课程定位及设计理念主要为：以就业为导向、应用为目标、实践为主线、能力为中心、企业指导、参与课程的开发。在进行本课程教学设计时，充分考虑了如下教学理念：

1) 学生线上，线下学习与实际应用的一致性；

2) 以学生能力为中心的理念；

3) 把现代教育技术手段的应用融入到课堂等教学理念，进行了本课程的教学设计。

1、以应用为目标

围绕应用性人才培养目标，深入企业进行调研，广泛征求意见，对课程内容进行模块化重组。与传统学科型课程不同，基于职业岗位能力的课程设计采用的是倒推法，即从企业上岗标准出发，来构建课程模块，设计教学活动。

2、以学生能力为中心

坚持以能力为中心、以学生为主体的原则来设计课堂教学，在学生就业岗位需求分析的基础上来确立能力目标，将能力培养贯穿于课程教学之中，实现由传统的以教师为主体的知识传授型教学模式向以学生为主体的能力培养型教学模式的转变。突破原课程以教为主的传统教学模式。

3、注重现代教学资源建设和使用，提高教学质量

注重教学内容先进与实用。教学技术上将“平面教学”与“立体化教学”技术有效应用，即教师课堂上“平面”讲授基础理论的同时，多采用现代教育技术、教学短片、图片和难点演示等“立体化”教学手段将生产现场逼真地播放给学生观看。

二、课程内容主要包括：

课程单元

单元内容

单元目标

单元一：大数据快速运算概述

1. 概述

2. 大数据的时代特征

3. 大数据运算面临的挑战

4. 大数据运算关键技术

5. 大数据管理主流技术

6. 大数据运算主流技术

7. Spark生态系统

1. 掌握大数据关键术语

2. 理解大数据的内涵与外延

3. 理解大数据运算面临的挑战

4. 了解大数据运算的关键技术

5. 了解大数据管理主流技术

6. 了解大数据运算主流平台

7. 了解Spark生态系统

单元二：Scala编程基础

1. Scala概述

2. Scala与Spark

3. Scala环境安装

4. 经典WordCount编程

5. Scala基础知识

6. Scala面向对象编程

7. Scala函数式编程

8. 结合Scala和Java

1. 理解应用Scala的理由

2. 理解Scala在Spark中的角色

3. 掌握基于Spark环境下Scala版本的选择

4. 掌握Scala环境安装方法

5. 掌握Scala编程必要的基础知识

6. 了解Scala与Java关系

单元三：Spark环境部署与入门

1. Spark环境配置

2. Spark Shell

3. Spark运行架构

4. 配置Spark开发环境

5. 经典WordCount编程

6. 由WordCount剖析Spark运行过程

7. 程序打包与运行

1. 掌握Spark环境配置的过程及注意事项

2. 掌握Spark Shell基本命令

3. 理解Spark不同运行架构

4. 掌握Spark开发环境配置方法

5. 理解Spark内部运行过程，并掌握其中涉及的关键术语

6. 掌握程序打包与运行的方法

单元四：Spark编程

1. RDD概述：种类、特性、实现原理

2. RDD操作：创建操作、转换、控制操作和行动操作

3. 向Spark传递函数

4. 键值对操作

5. RDD的容错机制

6. RDD的依赖关系

7. Spark存储：RDD、Shuffle、序列化和压缩

8. Spark共享变量：累加器、广播变量

9. 数据分区操作

1. 理解RDD基本理论知识与实现原理

2. 掌握RDD编程基础知识

3. 掌握RDD向Spark传递函数方法

4. 掌握键值对操作

5. 理解RDD的容错机制和

6. 理解RDD间依赖关系

7. 掌握数据分区实现过程

8. 理解Spark存储原理与实现过程

9. 掌握Spark共享变量的实现过程

10. 掌握数据分区的实现过程

单元五：Spark获取数据

1. 获取数据的动机

2. 获取数据文件的格式

3. 文件系统数据的获取

4. 从数据库中获取数据

1. 理解获取数据的动机

2. 掌握常见数据文件格式

3. 掌握从常见文件系统中获取数据的方法，例如：HDFS

4. 掌握从常见数据库中获取数据的方法，例如：HBase、Hive

单元六：Spark SQL

1. Spark SQL背景知识

2. DataFrame与RDD

3. Spark SQL运行原理

4. Spark SQL数据源

5. Spark SQL CLI

6. Spark SQL与JDBC

7. Spark SQL与Hive自定义函数

1. 了解Spark SQL背景知识

2. 理解DataFrame与RDD区别与联系

3. 理解Spark SQL运行原理

4. 了解Spark SQL读取数据源

5. 掌握Spark SQL CLI基本操作

6. 掌握Spark SQL通过JDBC操作数据库的方法

7. 掌握Spark SQL操作Hive自定义函数的方法

单元七：Spark Streaming

1. 流计算的基本概念

2. Spark Streaming与Storm

3. Spark Streaming编程模型

4. Spark Streaming运行原理

5. Spark Streaming与Kafka

1. 掌握流式计算的基本知识：背景、相关术语、与批量大数据计算的区别

2. 理解典型流式计算系统Spark Streaming与Storm的异同

3. 掌握Spark Streaming编程基本知识

4. 掌握Spark Streaming与Kafka实现小案例的过程

单元八：Spark MLlib

1. 机器学习概述

2. Spark MLlib与机器学习

3. Spark MLlib基本知识

4. 线性模型

5. 分类模型

6. 集成学习

7. 特征处理与转换

8. 聚类

9. 频繁模式挖掘

10. 协同过滤

1. 理解机器学习基本概念

2. 理解Spark MLlib与机器学习的关系

3. 掌握Spark MLlib用法

4. 掌握Spark MLlib线性模型实现方法

5. 掌握Spark MLlib分类模型实现方法

6. 掌握Spark MLlib集成学习实现方法

7. 掌握Spark MLlib特征处理与转换实现方法

8. 掌握Spark MLlib聚类实现方法

9. 掌握Spark MLlib实现频繁模式挖掘的方法

10. 掌握Spark MLlib实现协同过滤的方法

Last modified: Friday, 19 November 2021, 8:36 AM

大数据快速运算（共享）

课程简介

一、课程定位、设计理念

二 、课程内容主要包括：

二、课程内容主要包括：