Hadoop 进入寒冬期,崛起的会是 Spark 吗?

Posted 小黑格子屋

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop 进入寒冬期,崛起的会是 Spark 吗?相关的知识,希望对你有一定的参考价值。



笔者曾经看过一个非常有趣的比喻,Hadoop是第一家大型包工队,可以组织一大堆人合作(HDFS)搬砖盖房(用MapReduce),但是速度比较慢。


Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN、MESOS对人员和任务进行调度。


所以,最后,哪一家会胜出呢?



Hadoop是什么?


Hadoop 进入寒冬期,崛起的会是 Spark 吗?


它可以通过Apache发行版开源,也可以通过Cloudera(规模和范围最大的Hadoop供应商),MapR或HortonWorks等厂商提供。


Spark是一个较新的项目,最初于2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目,专注于在集群中并行处理数据,最大的区别在于它在内存中运行。


Hadoop 进入寒冬期,崛起的会是 Spark 吗?


Spark有几个API。原始界面是用Scala编写的,并且由于大量数据科学家的使用,还添加了Python和R接口。Java是编写Spark作业的另一种选择。



架构对比


首先,所有传入HDFS的文件都被分割成块。根据配置的块大小和复制因子,每个块在集群中被复制指定的次数。该信息被传递给NameNode,它跟踪集群中的所有内容。NameNode将这些文件分配给多个数据节点,然后将这些文件写入其中。在2012年被实施的高可用性允许NameNode故障转移到备份节点上,以跟踪集群中的所有文件。


YARN分配JobTracker加速并监控它们的资源,以提高效率。然后将所有来自MapReduce阶段的结果汇总并写入HDFS中的磁盘之上。


Spark的计算过程在内存中执行并在内存中存储,直到用户保存为止。除此之外,Spark处理工作的方式基本与Hadoop类似。最初,Spark从HDFS,S3或其他文件存储系统读取到名为SparkContext的程序执行入口。除此之外,Spark创建了一个名为RDD(弹性分布式数据集)的结构,它表示一组可并行操作元素的不可变集合。


用户可以在RDD上执行转换,中间操作或最终步骤。给定转换的结果进入DAG,不会保留到磁盘,但每一步操作都会将内存中的所有数据保留到磁盘。



性能


Hadoop 进入寒冬期,崛起的会是 Spark 吗?

每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。


但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。


Spark和Hadoop都可以作为开源Apache项目免费获得,这意味着用户都可以零成本安装运行。但是,考虑总体拥有成本才是最重要的,比如维护、硬件和软件购买,雇佣集群管理团队的开销。内部安装的一般经验法则是Hadoop需要更多的磁盘内存,而Spark需要更多的RAM,这意味着设置Spark集群可能会更加昂贵。此外,由于Spark是较新的系统,因此它的专家更为稀少,成本更高。另一种选择是使用供应商进行安装,例如Cloudera for Hadoop或Spark for DataBricks,或使用AWS在云中运行EMR / Mapreduce。


Hadoop 进入寒冬期,崛起的会是 Spark 吗?



容错和安全性


Spark的容错主要是通过RDD操作来实现。最初,静态数据存储在HDFS中,通过Hadoop的体系结构进行容错。随着RDD的建立,lineage也是如此,它记住了数据集是如何构建的,由于它是不可变的,如果需要可以从头开始重建。跨Spark分区的数据也可以基于DAG跨数据节点重建。数据在执行器节点之间复制,如果执行器和驱动程序之间的节点通信失败,通常可能会损坏数据。


Spark和Hadoop都可以支持Kerberos身份验证,但Hadoop对HDFS具有更加细化的安全控制。 Apache Sentry是一个用于执行细粒度元数据访问的系统,是另一个专门用于HDFS级别安全性的项目。


Hadoop 进入寒冬期,崛起的会是 Spark 吗?



总结


或许,Hadoop确实老了,大数据世界应该出现更年轻的统治者。


Hadoop 进入寒冬期,崛起的会是 Spark 吗?
往期精选
Hadoop 进入寒冬期,崛起的会是 Spark 吗?





来自: “ITPUB博客 ”

链接:

http://blog.itpub.net/31077337/viewspace-2154070/


Hadoop 进入寒冬期,崛起的会是 Spark 吗?

一只黑

小黑是个好人,只推送有用的东西。

长按左侧二维码关注

微信ID:xhmsvip

小黑QQ:3251175005

小黑微博:小黑黑的格子屋



看都看完了,还不点这里试试

以上是关于Hadoop 进入寒冬期,崛起的会是 Spark 吗?的主要内容,如果未能解决你的问题,请参考以下文章

今年的移动互联网“寒冬”,比往常更加冷一些

今年的移动互联网“寒冬”,比往常更加冷一些

互联网公司纷纷裁员,大家都在说互联网行业进入了寒冬期,你怎么看待这个说法?

0002-小牛学堂大数据24期视频-架构Hadoop-Spark

如何清洗存储在hadoop(HDFS)中的原始数据

阿里云机器学习平台PAI之理论基础