临时¶
MapReduce 的分而治之:
1. 数据切分:把大文件分成小文件
2. 数据传输:把文件分发给可用的计算机
3. 结果汇总:把每台计算机的计算结果做汇总处理,得到最终结果
4. 容错处理:解决多台计算机协作过程中出现的机器故障
5. 灵活扩展:根据计算机临时的增加,随时调整计算任务的分配和汇总
批处理开源框架: MapReduce, Spark
流处理开源框架: Storm, Spark Streaming
流批一体: Flink, Spark/Spart Streaming, Apache Beam