3.1 RDD简介

1.RDD简介

RDD是Spark提供的最重要的抽象概念,我们可以将RDD理解为一个分布式存储在集群中的大型数据集合,不同RDD之间可以通过转换操作形成依赖关系实现管道化,从而避免了中间结果的I/O操作,提高数据处理的速度和性能。

      RDD(Resilient Distributed Dataset),即弹性分布式数据集,是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并且还能控制数据的分区。具有5大特征:

  • 分区列表
  • 依赖于其他RDD
  • 每个分区都有一个优先位置列表
  • 每个分区都有一个计算函数
  • (Key,Value)数据类型的RDD分区器
Last modified: Friday, 29 October 2021, 9:09 AM