3.3 RDD的处理过程_转换算子
RDD处理过程中的“转换”操作主要用于根据已有RDD创建新的RDD,每一次通过Transformation算子计算后都会返回一个新RDD,供给下一个转换算子使用。下面,通过一张表来列举一些常用转换算子操作的API,具体如下:
转换算子 |
相关说明 |
filter(func) |
筛选出满足函数func的元素,并返回一个新的数据集 |
map(func) |
将每个元素传递到函数func中,返回的结果是一个新的数据集 |
flatMap(func) |
与map()相似,但是每个输入的元素都可以映射到0或者多个输出结果 |
groupByKey() |
应用于(Key,Value)键值对的数据集时,返回一个新的(Key,Iterable <Value>)形式的数据集 |
reduceByKey(func) |
应用于(Key,Value)键值对的数据集时,返回一个新的(Key,Value)形式的数据集。其中,每个Value值是将每个Key键传递到函数func中进行聚合后的结果 |
Last modified: Friday, 29 October 2021, 9:16 AM