3.1 RDD简介
1.RDD简介
RDD是Spark提供的最重要的抽象概念,我们可以将RDD理解为一个分布式存储在集群中的大型数据集合,不同RDD之间可以通过转换操作形成依赖关系实现管道化,从而避免了中间结果的I/O操作,提高数据处理的速度和性能。
RDD(Resilient Distributed Dataset),即弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。具有5大特征:
- 分区列表
- 依赖于其他RDD
- 每个分区都有一个优先位置列表
- 每个分区都有一个计算函数
- (Key,Value)数据类型的RDD分区器
Last modified: Friday, 29 October 2021, 9:09 AM