大数据快速运算（共享）: 2.4 spark与hadoop对比

2.4 spark与hadoop对比

1．数据处理

Hadoop在每次执行数据处理时，都要从磁盘中加载数据，导致磁盘IO开销较大；而Spark在执行数据处理时，要将数据加载到内存中，直接在内存中加载中间结果数据集，减少了磁盘的IO开销。

2．数据容错

MapReduce计算的中间结果数据，保存在磁盘中，Hadoop底层实现了备份机制，从而保证了数据容错；Spark RDD实现了基于Lineage的容错机制和设置检查点方式的容错机制，弥补数据在内存处理时，因断电导致数据丢失的问题。

最后修改: 2021年10月29日星期五 08:42