怎么看hadoop Summit 2015 and Spark summit 2015?

Posted 小象

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了怎么看hadoop Summit 2015 and Spark summit 2015?相关的知识,希望对你有一定的参考价值。

IBM要在Spark 上面拼了,据说要全公司参与到Spark里面,因为Spark还在初创阶段,所以早参入必然好处多。其他几个大公司比如GoogleMS怎么看呢?


Schedule里有不少有意思的topic,大家觉得哪些是比较有意思的?


Hadoop Summit上周也在San Jose开了……


所以我们把这些都合并一下,来看看邵铮老师是怎么说的吧。


邵铮:Dropbox/前Facebook研发经理,Hadoop项目管理委员会委员

我参加了今年的这两个大会。我来说一说我个人的感受吧。


首先,IBM(如楼主所说的)宣称在Spark上拼了,只是因为IBM在Big Data领域的发展太慢(相对互联网企业而言),所以想乘上Spark这班快车,赶超过去。这到底对IBM公司有多大帮助,我不是非常的乐观。而其它几家大公司早有类似的技术布局,所以没有必要像IBM宣称的那样孤注一掷。


下面是详细的感受。

1
会议规模

大数据的社区规模在不断的扩大。今年的两个会议的参会人数都创了新高。Hadoop Summit 2015的参会人数是4000,同比增长30%(2014: 3100, 2013: 2600, 2012: 2100, 2011: 1600, 2010: 1200)。Spark Summit 2015的参会人数是2000,同比增长300%(2014: 500)。可以看出,Hadoop Summit的参会人数还在加速增长,但是增长速度远远不及Spark Summit。值得一提的是这两个会议的门票都要上千美金,所以这么多的参会人数很好的反映出了目前大数据的热门程度。另外,两个大会上有很多不同行业的公司现身说法,讲述Hadoop/Spark技术的应用,可以说大数据已经在很多行业落地生根了。


关于为什么Spark的发展速度比Hadoop更快,我认为有以下几点原因:
1. Spark非常容易使用。Spark Notebook,Spark与Java/Scala/Python/R的互操作性都做得非常好。而Hadoop的早期用户和社区的主要贡献者都来自于大公司,服务于资深用户。资深用户更关注功能是否完善、系统是否稳定,而易用性就不是主要的考虑因素。


2. Spark是为交互式使用设计的。这体现在聚焦于规模较小的数据处理应用,因而使用内存来加速变得非常重要。这也体现在剔除很多不必要的开销,例如JVM启动时间、polling/heartbeat interval、用来防止出现Self-DDOS的sleep/wait。而Hadoop社区的决定者很多都是大公司。在那里,超大规模的数据计算是最重要的,而几秒钟的启动时间和等待都是无关紧要的。


3. Spark的Committer非常注重发展外部的代码贡献者。一开始,辅导外部的代码贡献者来提交patch可能比Committer自己写code提交patch更慢,但是辅导外部的代码贡献者是一个很好的投资,可以有长期的回报。显然,这个策略在Spark身上非常奏效。

相对来说,Spark的技术比较新,所以运维稳定性、调试等方面不及Hadoop的相关技术。今年Berkeley AMPLAB就专门在USENIX NSDI 2015上发表了一篇文章 Making Sense of Performance in Data Analytics Frameworks 来讲述如何调试Spark的性能问题。

2
趋势
1. Hadoop技术进一步的成熟。Hadoop最近的比较大的进步都是在运维稳定性和性能上的,例如HA(High Availablility)for YARN ResourceManager,Rolling Upgrades,Erasure Coding Support inside HDFS 等等。 相对来说,用户可用的新功能较少。


2. Spark在Machine Learning和Data Science/Statistics用户中的普及非常快。Spark Notebook,MLLib,SparkR 是Spark的几个杀手级的产品。SparkSQL中的DataFrame也是一个非常有效的功能,但SparkSQL在Data Warehouse领域(如ETL,BI等)的前景还有待进一步的观察,因为SparkSQL毕竟是后来者。

3. Spark和Hadoop的生态系统在融合。这点可以参见Hadoop & Spark, Perfect Together。Hadoop和Spark各自都有很多子项目。对于一个大数据的高级用户来说,他/她所做的决定一定不是”我到底用Hadoop还是Spark“,而是"我到底用Hadoop的哪些组件和Spark的哪些组件"。所以,对Hadoop和Spark的各个子项目的了解变得非常重要。

3
我最关注的技术
1. YARN。YARN是Hadoop 2的计算资源管理调度系统,可以说YARN是Hadoop 1和Hadoop 2的最主要的区别。YARN从2010年开始开发,2013年10月发布第一版,到现在已经有5年历史,所以技术也相对成熟了,可以在生产环境中稳定的使用。目前Dropbox的Hadoop机群就在迁移到YARN的过程当中。
感兴趣的同学建议先读一读 Hadoop YARN的Blog。然后重点关注这些新功能:Rolling upgrades,Support for Long-running services (HBase, Storm, Kafka), support for Docker containers。将来YARN会有更多的监测和调试功能(如Timeline server Next Generation),也值得关注。
2. Hive与Stinger。Stinger是2013-2014年Hive上最大的改进, 号称要把Hive的效率提高100倍。 到今年这项技术已经比较成熟,可以在生产环境中比较稳定的使用了。Stinger包含三大方面的改进:ORCFile(优化列存储),Vectorized Execution(向量计算),Tez(非Map-Reduce的DAG执行系统) 。这是Dropbox的Hadoop机群下一步的升级目标。
3. SparkR。 我之前学过一些统计的课程,很喜欢R语言在数据处理方面的优势。SparkR把Spark和R结合在一起,对于学习统计的同学来说,会有非常大的帮助。我猜想以后很多大数据方面的高级应用(风控建模之类的)会使用SparkR。
4. Project Tungsten。Tungsten会给Spark的性能带来非常大的提升。主要的技术点有:使用Off-Heap Storage并去除Java Object的overhead,Cache-aware Computation,与Code Generation。这个项目还在开发的过程中,有兴趣的同学可以参与进去。

4
建议
1. 初学者与大数据应用爱好者:建议从2014年的 Databricks Cloud Demo 开始,去 Databricks Cloud 注册用户(点击右上角"Sign Up for Databricks"),做一些练习,掌握大数据处理的基本流程。
2. 大数据底层技术开发者:建议关注Project Tungsten并且参与进去。
3. 大数据高级用户:建议多多关注各大公司使用这些技术的经验总结,例如Letter from the Trenches: An inside look at Hive at Yahoo 。如果还没有在生产环境中使用YARN与Hive Stinger,建议开始考虑升级。

winningsix(码农)
从这次spark summit上看,spark的方向大体包括两块:data science和platform API,前者包括DataFrames,Machine Learning Pipeline以及R language,后者包括多种源的通用接口还有一些spark 的package。除了IBM宣布大力支持spark之外big data三巨头(Mapr,hortonWorks和Cloudera)纷纷表示自己的平台对spark支持良好,并持对spark的积极态度。 其他公司像TimeFul(被google收购了)的Gloria Lau也发表了一个key note。
韩卢克(一介IT民工,专业围观)
分享下我们Apache Kylin在两次Hadoop峰会上的演讲和参会的感受,内容较多就不copy到这里了: Hadoop & Spark 峰会杂谈
qiqiqi,(大数据软件工程师)
我来为楼主添砖加瓦,关于IBM投资spark的事,可以参考这里助人就是助己:IBM宣布大规模资助开源大数据项目Spark. 为什么IBM会这样做,个人认为IBM根本上说是一个咨询公司,估计它发现客户对大数据的需求与日俱增。而Spark正是下一代大数据最有前途的产品,当然要早做布局了。
Spark 1.3是一个非常重要的版本,因为在这个版本里,SchemaRDD演化为了Dataframe。这个演进消除了无数Data Scientist (他们习惯SQL,Python, R而不是Scala,Java)接受Spark的最大障碍。可以预见,很多传统数据工程师将开始拥抱Spark了。
至于2015 summit, 我比较关注机器学习。
知乎用户 (酱油PHD)
苦于门票价格,穷学生就是看看现场的video 和 ppt了。
楼上参加了大会的同志的总结的蛮清楚的,有心了。
补自己关心的几个领域的问题。
多多
这个演进消除了无数Data Scientist (他们习惯SQL,Python, R而不是Scala,Java)接受Spark的最大障碍。


* 文中所涉及精彩文章小象正在翻译整理中,

更多精彩,近期将与大家见面!


来源:知乎


以上是关于怎么看hadoop Summit 2015 and Spark summit 2015?的主要内容,如果未能解决你的问题,请参考以下文章

满满的技术干货!Hadoop顶级会议Apache Hadoop Summit精华讲义分享

第八届中国HADOOP大数据峰会(China HADOOP Summit)胜利闭幕

活动 | 相约Hadoop十年,China Hadoop Summit 2016 北京站震撼来袭!

第九届中国HADOOP大数据峰会(CHINA HADOOP SUMMIT)胜利闭幕

Hadoop十年,CDA在China Hadoop Summit 2016 北京站等你!

议题再次更新,快来挖掘新猛料-Hadoop Summit 上海站(v16)