[Hadoop]一分钟了解Hadoop的前世今生
Posted 爱折腾的稻草
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[Hadoop]一分钟了解Hadoop的前世今生相关的知识,希望对你有一定的参考价值。
古时候,人们用牛来拉重物,当一头牛拉不动一根圆木时,他们不曾想过培育一头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。
-- 格雷斯.霍珀
一、Hadoop的由来
1、数据,数据,数据
我们现在处在一个数据时代,而且是一个海量数据的时代。
就个人而言,随着移动互联网的到来,每个人都在不断的使用各种应用软件,这些应用软件都会或多或少的存储您的个人信息(包括您的基本信息、使用日志信息等)。个人数据的增长已是大势所趋。更重要的是,各种应用所产生的数据可能比个人产生的数据大的多。比如机器日志、RFID读取器、传感器网络、车载GPS和零售交易数据等等。
在这样一个海量数据的时代,我们该如何存储和分析这些数据呢?2、数据的存储和分析
最近几年来普通PC的硬盘容量得到了快速增长,然而,硬盘数据的访问速度却未能与时俱进。如果我们将海量数据存放在普通的硬盘中(假定可以存放的下),我们也无法实现对这些数据的快速访问,以便于进行数据分析,提炼其价值。
Hadoop提供了一个稳定的共享存储和分析系统。存储由HDFS来实现,分析有MapReduce来实现。虽然Hadoop还有其他功能,但是这两个才是其最核心的功能。
二、Hadoop发展简史
1、Hadoop名字的由来
Hadoop不是一个缩写,而是一个虚构的名字。
Hadoop创始人Doug Cutting这样解释:“这个名字是我孩子给一头吃
饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手,Googol就是由小孩命名的。”2、发展历程
2002年,Nutch项目成立,目标是建立一个可工作的抓取工具和搜索系统。
2003年,Google发表了一篇分布式文件系统(GFS)的论文。
2004年,Nutch开始研发一个开源的分布式文件系统(NDFS)。
2004年,Google发表了一篇介绍MapReduce的论文。
2005年,Nutch研发了一个可工作的MapReduce应用,并将所有主要的Nutch算法移植到使用MapReduce和NDFS来运行。
2006年,Nutch转移出一个独立的Lucene子项目,称为Hadoop。
2008年,Hadoop成为了Apache的一个顶级项目。
2008年,赢得世界最快1TB数据排序在900个节点上用时209秒的成绩。
三、Apache Hadoop项目
如今的Hadoop是一个分布式计算基础架构这把“大伞”下的相关子项目的集合。Hadoop最出名的是MapReduce及其分布式文件系统HDFS(由NDFS改名而来)。但还有其他子项目提供配套服务。
1、Hadoop下包含的模块
Hadoop Common:通用模块,给其他Hadoop模块提供支持。
HDFS:分布式文件系统。
Hadoop YARN:一个集群作业调度和资源管理的框架。
Hadoop MapReduce:分布式数据处理模式和执行环境。
2、Hadoop相关的项目:
Ambari: 一个以web的方式配置、管理和监控Apache Hadoop集群的工具。
Avro: 一种提供高效、跨语言RPC的数据序列系统。
Cassandra: 一个没有单点故障的,可以伸缩的多主机数据库。
Chukwa: 分布式数据收集和分析系统。Chukwa运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。
HBase: 一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询。
Hive: 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言用以查询数据。
Mahout: A Scalable machine learning and data mining library.
Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。
ZooKeeper:一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。
以上是关于[Hadoop]一分钟了解Hadoop的前世今生的主要内容,如果未能解决你的问题,请参考以下文章