Hadoop学习路线

Posted 2020-10-27 gala1021

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Hadoop学习路线相关的知识，希望对你有一定的参考价值。

随着大数据的盛行，Hadoop也流行起来。面过一些公司，包括开发Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google，数不胜数了.

Hadoop 2.0转型基本无可阻挡，今年下半年要正式发布了，它的出现让大家知识体系都要更新了。Hadoop1.0搞了8年才发布，2.0不到2年就出来了。2.0的核心是YARN，它的诞生还是有趣的故事

YARN介绍

Hadoop 生态系统

SQL on Hadoop

Hadoop Summit

书籍和Paper

“Hadoop: The Definitive Guide”: 里面内容非常好，既有高屋建瓴，又有微观把握，基本适用于1.X版本。比如mapreduce各个子阶段，Join在里面也有代码实现，第三版

Google的三辆马车，GFS, MapReduce, BigTable Google的新三辆马车：Caffeine、Pregel、Dremel

SIGMOD, VLDB Top DB conference

入门：

Hadoop 2.0新知识; HDFS2 HA，Snapshot, ResourceManager,ApplicationsManager, NodeManager

进阶:

算法：

Blog

关注Cloudera, Hortonworks, MapR

相关系统

公司列表：

其他

Hadoop进化目标：开发部署傻瓜化，性能更强劲，最后为程序员标配。
核心都是被寡头控制的，记得一边文章说一流的公司卖标准，二流的公司卖技术，三流的公司卖产品，H和C有最多的committer，自然就影响着整个Hadoop社区。
技术就是日新月异，还是多看看那些公司的博客，关注感兴趣的新产品，Hortonworks Stack
在Hadoop系统中从头裸写MapReduce不现实了，ETL基本靠Hive,Pig, 还有Cascading,Scalding
MapReduce并不是最优的，仅适合批处理，很多问题：JVM的启动overhead很大，小 Job更明显，数据必须先存储，不适合迭代计算，延迟高。DB学术圈讨论很久tradeoff 了,MapReduce: 一个巨大的倒退

以上是关于Hadoop学习路线的主要内容，如果未能解决你的问题，请参考以下文章