Ness SES首席技术官:最终,Hadoop老了!

Posted 牡丹大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Ness SES首席技术官:最终,Hadoop老了!相关的知识,希望对你有一定的参考价值。

Ness SES首席技术官:最终,Hadoop老了!

对于hadoop飘忽不定的未来,Ness SES的首席技术官(CTO)Moshe Kranc写下了这篇文章。


  计算机世界充斥着大量先动者的产品,但最终都会被追随者所取代,后来者从创新者的错误中学习并继续发展。我相信这是Hadoop的命运,因为Spark和Cassandra等已经在大数据社区获得了持续发展的动力。


  为了证明上述观点,我需要先来讲一点历史。


  “Hadoop作为一个概念彻底改变了数据处理世界,并最终迎来了大数据时代!”


  大约20年前,Doug Cutting在创建Web搜索引擎时面临两大问题:


  如何可靠地存储所有信息?


  如何创建大量查找索引?


  之后,Hadoop诞生了。它包括分布式、高可用的文件系统和用于大规模并行计算的Map-Reduce框架。

Ness SES首席技术官:最终,Hadoop老了!

Ness SES首席技术官:最终,Hadoop老了!MapReduce确实是革命性的,它让曾经难以解决的问题可以在几分钟内被解决。但是,它没有利用内存来提高性能,并且在处理增量更改时很糟糕,例如,将单个新推文的索引添加到现有的完整Web索引。


  随着时间的推移,Hadoop用Tez取代了原来的MapReduce框架,Tez使用定向非循环图进行并行处理,理论基于微软2010年有关Dryad的论文。但是,Tez已经被另一款产品抢先了,这款产品就是Spark。Spark的实现更通用,例如,可以有效检查和恢复各计算阶段的数据。Spark可以运行在Hadoop生态系统中(它很快将取代Tez),或者它可以在自己的独立环境中运行。越来越多的项目选择Spark作为其大数据解决方案,将Hadoop Spark或Spark standalone作为次要选择。目前超过25%的Spark项目在Hadoop之外运行,并且这一比例在不断上升。


  很多大数据人士坚信Haoop会有一个光明年代,认为Spark和Hadoop根本没有可比性,不愿意承认Hadoop的年代感。


  Hadoop文件系统(HDFS)也在展示其年代感。例如,它需要一个活动的NameNode才能运行,并且它使用Zookeeper来监控NameNode可用性。因此,当Zookeeper检测到活动的NameNode崩溃时,它可能会经历长达一分钟的“断电”。Hadoop已经发展出提高可用性的机制,但其他大数据系统(如Cassandra's)早已实现了高可用性,而无需主节点或外部监控工具,从而消除掉电风险。

Ness SES首席技术官:最终,Hadoop老了!

  大数据领域的趋势越来越明显。Hadoop作为一个概念彻底改变了数据处理世界,迎来了大数据时代。但是,作为一个产品和生态系统的Hadoop正在显示其年代感,对于许多用例来说,它已经被Spark等更现代的技术所取代,后者可以从Hadoop不断增长的痛苦中学习。Spark具有更通用和可扩展的编程模型,这使得它更易于分析。它还可以通过Spark Streaming处理Motion中的大数据,并作为强大图形数据库(GraphX)和全功能数据科学库(MLib)的基础。


  也许这就解释了最近Gartner报告的发现,尽管对大数据解决方案的需求在不断增长,但对Hadoop的需求并没有像预期那样加速,企业对Hadoop的热情很低。


  事实上,绝大多数接受调查的企业表示他们现在或未来都没有计划投资Hadoop。所以,尽管Spark,Cassandra和MongoDB等其他大数据技术仍然吸引了很多公司的兴趣,但Hadoop似乎正在遭受需求下滑的困扰。


  领先的Hadoop厂商Cloudera和Hortonworks可能仍然有很高的估值,但他们花费太多的时间去发展每个新客户,并且还没有突破到主流企业。


  为什么对Hadoop缺乏热情?一些分析师指责总拥有成本较高,另一些则认为是寻找具备必要技能的工程师存在困难。对我而言,这些只是说Hadoop正在显示其年龄感的不同方式。与任何具备20年历史的软件系统一样,Hadoop多年来也在不断发展,每一次演变都使生态系统更加复杂,难以部署或维护。像Spark这样的新系统具有更年轻和更健壮的代码库,对年轻的工程师而言,Spark等现代工具拥有比Hadoop更易于使用的现代编程API范例。


  没有Hadoop,Spark和Cassandra恐怕不会取得现在的成绩。对Hadoop感恩的同时,我们或许要开始学会遗忘Hadoop,毕竟,它已经不年轻了。

Ness SES首席技术官:最终,Hadoop老了!

牡丹大数据从大数据业解方案的专业机构,依靠新进的技术优势,深耕舆情行业,集聚武汉大学等著名高校算法科学家,提供全网舆情服务

1.    网络民意采集

2.    互联网舆论引导

3.    应急联动处置预案出具

4.    主流媒体高端访谈

5.    互联网及中央级媒体宣传报道

6.    窗口单位专项推送

7.    互联网民情民意调查报告

8.    舆情预警相关信息推送

9.    智库服务


更多精彩内容请关注

以上是关于Ness SES首席技术官:最终,Hadoop老了!的主要内容,如果未能解决你的问题,请参考以下文章

首席技术官CTO工作的岗位职责十篇

SES创始人兼首席执行官发布致股东信

Linus:我们都老了,但Linux维护后继无人

Linus:我们都老了,但Linux维护后继无人

coo和cfo和cto平级还是?通俗易懂的说

联想全球首席技术官研究进一步增强其“新IT”愿景,塑造更智能的未来