大数据之二:Hadoop与Spark辨析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据之二:Hadoop与Spark辨析相关的知识,希望对你有一定的参考价值。
转载自知乎:https://www.zhihu.com/question/26568496
1) MapReduce:是一种离线计算框架,将一个算法抽象成Map和Reduce两个阶段进行
处理,非常适合数据密集型计算。
2) Spark:MapReduce计算框架不适合迭代计算和交互式计算,MapReduce是一种磁盘
计算框架,而Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代
应用和交互式应用的计算效率。
3) Storm:MapReduce也不适合进行流式计算、实时分析,比如广告点击计算等,而
Storm则更擅长这种计算、它在实时性要远远好于MapReduce计算框架。
4)Tez: 运行在YARN之上支持DAG作业的计算框架,对MapReduce数据处理的归纳。它
把Map/Reduce过程拆分成若干个子过程,同时可以把多个Map/Reduce任务组合成一个
较大的DAG任务,减少了Map/Reduce之间的文件存储。同时合理组合其子过程,也可
以减少任务的运行时间。
以上是关于大数据之二:Hadoop与Spark辨析的主要内容,如果未能解决你的问题,请参考以下文章
大数据最全的大数据Hadoop|Yarn|Spark|Flink|Hive技术书籍分享/下载链接,持续更新中...
金融需要 hadoop,spark 等这些大数据分析工具吗?使用场景是怎样的