大数据快速运算（共享）: 3.1 RDD简介

3.1 RDD简介

1．RDD简介

RDD是Spark提供的最重要的抽象概念，我们可以将RDD理解为一个分布式存储在集群中的大型数据集合，不同RDD之间可以通过转换操作形成依赖关系实现管道化，从而避免了中间结果的I/O操作，提高数据处理的速度和性能。

RDD（Resilient Distributed Dataset），即弹性分布式数据集，是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并且还能控制数据的分区。具有5大特征：

最后修改: 2021年10月29日星期五 09:09