怎么看hadoop Summit 2015 and Spark summit 2015？

Posted 2021-04-13 小象

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了怎么看hadoop Summit 2015 and Spark summit 2015？相关的知识，希望对你有一定的参考价值。

IBM要在Spark 上面拼了，据说要全公司参与到Spark里面，因为Spark还在初创阶段，所以早参入必然好处多。其他几个大公司比如Google，MS怎么看呢？

Schedule里有不少有意思的topic，大家觉得哪些是比较有意思的？

Hadoop Summit上周也在San Jose开了……

所以我们把这些都合并一下，来看看邵铮老师是怎么说的吧。

邵铮：Dropbox/前Facebook研发经理，Hadoop项目管理委员会委员

我参加了今年的这两个大会。我来说一说我个人的感受吧。

首先，IBM（如楼主所说的）宣称在Spark上拼了，只是因为IBM在Big Data领域的发展太慢（相对互联网企业而言），所以想乘上Spark这班快车，赶超过去。这到底对IBM公司有多大帮助，我不是非常的乐观。而其它几家大公司早有类似的技术布局，所以没有必要像IBM宣称的那样孤注一掷。

下面是详细的感受。

会议规模

大数据的社区规模在不断的扩大。今年的两个会议的参会人数都创了新高。Hadoop Summit 2015的参会人数是4000，同比增长30%（2014: 3100, 2013: 2600, 2012: 2100, 2011: 1600, 2010: 1200）。Spark Summit 2015的参会人数是2000，同比增长300%（2014: 500）。可以看出，Hadoop Summit的参会人数还在加速增长，但是增长速度远远不及Spark Summit。值得一提的是这两个会议的门票都要上千美金，所以这么多的参会人数很好的反映出了目前大数据的热门程度。另外，两个大会上有很多不同行业的公司现身说法，讲述Hadoop/Spark技术的应用，可以说大数据已经在很多行业落地生根了。

关于为什么Spark的发展速度比Hadoop更快，我认为有以下几点原因：

1. Spark非常容易使用。Spark Notebook，Spark与Java/Scala/Python/R的互操作性都做得非常好。而Hadoop的早期用户和社区的主要贡献者都来自于大公司，服务于资深用户。资深用户更关注功能是否完善、系统是否稳定，而易用性就不是主要的考虑因素。

2. Spark是为交互式使用设计的。这体现在聚焦于规模较小的数据处理应用，因而使用内存来加速变得非常重要。这也体现在剔除很多不必要的开销，例如JVM启动时间、polling/heartbeat interval、用来防止出现Self-DDOS的sleep/wait。而Hadoop社区的决定者很多都是大公司。在那里，超大规模的数据计算是最重要的，而几秒钟的启动时间和等待都是无关紧要的。

3. Spark的Committer非常注重发展外部的代码贡献者。一开始，辅导外部的代码贡献者来提交patch可能比Committer自己写code提交patch更慢，但是辅导外部的代码贡献者是一个很好的投资，可以有长期的回报。显然，这个策略在Spark身上非常奏效。

相对来说，Spark的技术比较新，所以运维稳定性、调试等方面不及Hadoop的相关技术。今年Berkeley AMPLAB就专门在USENIX NSDI 2015上发表了一篇文章 Making Sense of Performance in Data Analytics Frameworks 来讲述如何调试Spark的性能问题。

趋势

1. Hadoop技术进一步的成熟。Hadoop最近的比较大的进步都是在运维稳定性和性能上的，例如HA（High Availablility）for YARN ResourceManager，Rolling Upgrades，Erasure Coding Support inside HDFS 等等。相对来说，用户可用的新功能较少。

2. Spark在Machine Learning和Data Science/Statistics用户中的普及非常快。Spark Notebook，MLLib，SparkR 是Spark的几个杀手级的产品。SparkSQL中的DataFrame也是一个非常有效的功能，但SparkSQL在Data Warehouse领域（如ETL，BI等）的前景还有待进一步的观察，因为SparkSQL毕竟是后来者。

3. Spark和Hadoop的生态系统在融合。这点可以参见Hadoop & Spark, Perfect Together。Hadoop和Spark各自都有很多子项目。对于一个大数据的高级用户来说，他/她所做的决定一定不是”我到底用Hadoop还是Spark“，而是"我到底用Hadoop的哪些组件和Spark的哪些组件"。所以，对Hadoop和Spark的各个子项目的了解变得非常重要。

我最关注的技术

1. YARN。YARN是Hadoop 2的计算资源管理调度系统，可以说YARN是Hadoop 1和Hadoop 2的最主要的区别。YARN从2010年开始开发，2013年10月发布第一版，到现在已经有5年历史，所以技术也相对成熟了，可以在生产环境中稳定的使用。目前Dropbox的Hadoop机群就在迁移到YARN的过程当中。

感兴趣的同学建议先读一读 Hadoop YARN的Blog。然后重点关注这些新功能：Rolling upgrades，Support for Long-running services (HBase, Storm, Kafka), support for Docker containers。将来YARN会有更多的监测和调试功能（如Timeline server Next Generation），也值得关注。

2. Hive与Stinger。Stinger是2013-2014年Hive上最大的改进，号称要把Hive的效率提高100倍。到今年这项技术已经比较成熟，可以在生产环境中比较稳定的使用了。Stinger包含三大方面的改进：ORCFile（优化列存储），Vectorized Execution（向量计算），Tez（非Map-Reduce的DAG执行系统）。这是Dropbox的Hadoop机群下一步的升级目标。

3. SparkR。我之前学过一些统计的课程，很喜欢R语言在数据处理方面的优势。SparkR把Spark和R结合在一起，对于学习统计的同学来说，会有非常大的帮助。我猜想以后很多大数据方面的高级应用（风控建模之类的）会使用SparkR。

4. Project Tungsten。Tungsten会给Spark的性能带来非常大的提升。主要的技术点有：使用Off-Heap Storage并去除Java Object的overhead，Cache-aware Computation，与Code Generation。这个项目还在开发的过程中，有兴趣的同学可以参与进去。

建议

1. 初学者与大数据应用爱好者：建议从2014年的 Databricks Cloud Demo 开始，去 Databricks Cloud 注册用户（点击右上角"Sign Up for Databricks"），做一些练习，掌握大数据处理的基本流程。

2. 大数据底层技术开发者：建议关注Project Tungsten并且参与进去。

3. 大数据高级用户：建议多多关注各大公司使用这些技术的经验总结，例如Letter from the Trenches: An inside look at Hive at Yahoo 。如果还没有在生产环境中使用YARN与Hive Stinger，建议开始考虑升级。

精

选

评

论

winningsix（码农）

从这次spark summit上看，spark的方向大体包括两块：data science和platform API，前者包括DataFrames，Machine Learning Pipeline以及R language，后者包括多种源的通用接口还有一些spark 的package。除了IBM宣布大力支持spark之外big data三巨头(Mapr,hortonWorks和Cloudera)纷纷表示自己的平台对spark支持良好，并持对spark的积极态度。其他公司像TimeFul（被google收购了）的Gloria Lau也发表了一个key note。

韩卢克（一介IT民工，专业围观）

分享下我们Apache Kylin在两次Hadoop峰会上的演讲和参会的感受，内容较多就不copy到这里了： Hadoop & Spark 峰会杂谈

qiqiqi，（大数据软件工程师）

我来为楼主添砖加瓦，关于IBM投资spark的事，可以参考这里助人就是助己：IBM宣布大规模资助开源大数据项目Spark. 为什么IBM会这样做，个人认为IBM根本上说是一个咨询公司，估计它发现客户对大数据的需求与日俱增。而Spark正是下一代大数据最有前途的产品，当然要早做布局了。

Spark 1.3是一个非常重要的版本，因为在这个版本里，SchemaRDD演化为了Dataframe。这个演进消除了无数Data Scientist （他们习惯SQL，Python， R而不是Scala，Java）接受Spark的最大障碍。可以预见，很多传统数据工程师将开始拥抱Spark了。

至于2015 summit, 我比较关注机器学习。

知乎用户（酱油PHD）

苦于门票价格，穷学生就是看看现场的video 和 ppt了。

楼上参加了大会的同志的总结的蛮清楚的，有心了。

补自己关心的几个领域的问题。

多多

这个演进消除了无数Data Scientist （他们习惯SQL，Python， R而不是Scala，Java）接受Spark的最大障碍。