[Hadoop]一分钟了解Hadoop的前世今生

Posted 爱折腾的稻草

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Hadoop]一分钟了解Hadoop的前世今生相关的知识,希望对你有一定的参考价值。

古时候,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育一头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。
                                                                                                  -- 格雷斯.霍珀

一、Hadoop的由来

  • 1、数据,数据,数据
    我们现在处在一个数据时代,而且是一个海量数据的时代。
    就个人而言,随着移动互联网的到来,每个人都在不断的使用各种应用软件,这些应用软件都会或多或少的存储您的个人信息(包括您的基本信息、使用日志信息等)。个人数据的增长已是大势所趋。更重要的是,各种应用所产生的数据可能比个人产生的数据大的多。比如机器日志、RFID读取器、传感器网络、车载GPS和零售交易数据等等。
    在这样一个海量数据的时代,我们该如何存储和分析这些数据呢?

  • 2、数据的存储和分析
    最近几年来普通PC的硬盘容量得到了快速增长,然而,硬盘数据的访问速度却未能与时俱进。如果我们将海量数据存放在普通的硬盘中(假定可以存放的下),我们也无法实现对这些数据的快速访问,以便于进行数据分析,提炼其价值。
    Hadoop提供了一个稳定的共享存储和分析系统。存储由HDFS来实现,分析有MapReduce来实现。虽然Hadoop还有其他功能,但是这两个才是其最核心的功能。

二、Hadoop发展简史

  • 1、Hadoop名字的由来
    Hadoop不是一个缩写,而是一个虚构的名字。
    Hadoop创始人Doug Cutting这样解释:“这个名字是我孩子给一头吃
    饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手,Googol就是由小孩命名的。”

  • 2、发展历程

    • 2002年,Nutch项目成立,目标是建立一个可工作的抓取工具和搜索系统。

    • 2003年,Google发表了一篇分布式文件系统(GFS)的论文。

    • 2004年,Nutch开始研发一个开源的分布式文件系统(NDFS)。

    • 2004年,Google发表了一篇介绍MapReduce的论文。

    • 2005年,Nutch研发了一个可工作的MapReduce应用,并将所有主要的Nutch算法移植到使用MapReduce和NDFS来运行。

    • 2006年,Nutch转移出一个独立的Lucene子项目,称为Hadoop。

    • 2008年,Hadoop成为了Apache的一个顶级项目。

    • 2008年,赢得世界最快1TB数据排序在900个节点上用时209秒的成绩。

三、Apache Hadoop项目

如今的Hadoop是一个分布式计算基础架构这把“大伞”下的相关子项目的集合。Hadoop最出名的是MapReduce及其分布式文件系统HDFS(由NDFS改名而来)。但还有其他子项目提供配套服务。

  • 1、Hadoop下包含的模块

    • Hadoop Common:通用模块,给其他Hadoop模块提供支持。

    • HDFS:分布式文件系统。

    • Hadoop YARN:一个集群作业调度和资源管理的框架。

    • Hadoop MapReduce:分布式数据处理模式和执行环境。

  • 2、Hadoop相关的项目:

    • Ambari: 一个以web的方式配置、管理和监控Apache Hadoop集群的工具。

    • Avro: 一种提供高效、跨语言RPC的数据序列系统。

    • Cassandra: 一个没有单点故障的,可以伸缩的多主机数据库。

    • Chukwa: 分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。

    • HBase: 一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询。

    • Hive: 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。

    • Mahout: A Scalable machine learning and data mining library.

    • Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。

    • ZooKeeper:一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。


图注:爱折腾的稻草

以上是关于[Hadoop]一分钟了解Hadoop的前世今生的主要内容,如果未能解决你的问题,请参考以下文章

Spark的介绍:前世今生

5分钟带你快速了解微服务框架的前世今生

5分钟带你快速了解微服务框架的前世今生

5分钟带你快速了解微服务框架的前世今生

大数据讲课笔记2.3 初探Hadoop世界

Hadoop课程