3.3 RDD的处理过程_转换算子

RDD处理过程中的“转换”操作主要用于根据已有RDD创建新的RDD,每一次通过Transformation算子计算后都会返回一个新RDD,供给下一个转换算子使用。下面,通过一张表来列举一些常用转换算子操作的API,具体如下:

转换算子

相关说明

filter(func)

筛选出满足函数func的元素,并返回一个新的数据集

map(func)

将每个元素传递到函数func中,返回的结果是一个新的数据集

flatMap(func)

map()相似,但是每个输入的元素都可以映射到0或者多个输出结果

groupByKey()

应用于(KeyValue)键值对的数据集时,返回一个新的(KeyIterable <Value>)形式的数据集

reduceByKey(func)

应用于(KeyValue)键值对的数据集时,返回一个新的(KeyValue)形式的数据集。其中,每个Value值是将每个Key键传递到函数func中进行聚合后的结果

最后修改: 2021年10月29日 星期五 09:16