图文并茂:5分钟了解Hadoop

Posted 大数据文摘

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了图文并茂:5分钟了解Hadoop相关的知识,希望对你有一定的参考价值。

点击标题下「大数据文摘」可快捷关注


大数据文摘翻译团队出品

翻译:孙国良

校对:孙强

感兴趣加入大数据文摘翻译团队的朋友,请回复“翻译”和“志愿者”了解更多

转载需保留以上信息


原文链接:

http://www.bigdata-startups.com/BigData-startup/what-is-hadoop-and-five-reasons-organisations-use-hadoop-infographic/


Hadoop原是Hadoop开发者的孩子给自己的大象玩具起的名字。因为原有的数据存储和处理工具对于处理互联网泡沫之后开始出现的海量数据显得力不从心, 所以开发了Hadoop。首先,谷歌提出了MapReduce构架,它能够应对来自整合全球信息任务所产生的数据流,并使这些数据变得具有很高的可访问性。此后,在2005年雅虎开发了基于MapReduce构架的Hadoop。它作为Apache许可协议下的一个开源工具于2007年被正式发布。



几年来,Hadoop已经变成了一个超大规模的操作系统,尤其是应用于时下产生的海量数据所进行的分布式并行处理。像通常的操作系统一样,Hadoop包括完整的文件系统,可编写程序,以及分布式管理这些程序并返回计算结果。



Hadoop支持能同时运行在低廉硬件设备构建的大型集群上的数据密集型分布式应用程序。它是根据Apache v2的许可协议发布。Hadoop网络可靠稳定并且扩展度很高,它可以用来查询海量数据集。Hadoop是用Java所编写的,这意味着它可以在任何平台上运行,并被全球性分销商和已经在Hadoop之上构建了其他软件层面的大数据技术供应商所使用。



Hadoop分布式文件系统(HDFS)这个功能使Hadoop变得非常有用。这是Hadoop的存储系统,它把数据分解处理成称之为”块”的较小部分。这些块随后被分布于整个集群。这种数据分布允许映射(Map)和化简(Reduce)后的功能被执行于更小的子集,而不是在一个大的数据集上。这提高了效率,节约了处理时间, 提高了处理海量数据所需的可扩展性。



MapReduce是一个软件框架和模型,可以处理和检索并行存储在Hadoop系统上的海量数据。MapReduce的函数库已经被用多种编程语言所编写,所以Hadoop能与他们配合工作。另外,MapReduce可以处理结构化和非结构化数据。



MapReduce的工作分两个步骤。第一步骤是“映射(Map)”,其将数据分割为更小的子集,并把这些子集分配到集群中的不同节点上。系统内的节点可以再次执行这项操作,从而导致了一个多层次树结构,它将数据分割于越来越小的子集中。在这些节点上对数据进行处理并把结果返回到“主节点”。 第二步骤是“化简(Reduce)”。 主节点收集所有返回的数据,并把它们组合成某种可重复使用的形式输出。MapReduce框架可以管理所有的各种并行任务和整个系统,并形成Hadoop的心脏。



通过融合多种技术,海量数据可以很容易地存储,并在几分之一秒内被处理和分析。在过去几年中,对于大数据生态系统Hadoop已被证明非常成功,并且看起来前途非常光明。随着Hadoop2.0的开发,它现在使用一种全新的作业处理框架,称之为YARN。YARN是Yet Another Resource Negotiator的缩写,它是一个管理集群计算资源的应用程序调度模块。YARN使多个数据处理引擎,如交互式SQL,实时流媒体,数据科学和批量处理来处理存储在一个单一平台上的数据,创建一个全新的方法来分析。



Hadoop是一个强大的工具,自2005年以来,超过25%的企业目前使用Hadoop来管理他们的数据,在2012年同比增长了10%。以下是企业使用它的几个原因:


低成本;

高计算能力;

高扩展性;

存储灵活性;

数据保护。


Hadoop被用于几乎所有行业,从零售业,到政府,金融。下面由Solix制作的信息图表提供了一个对Hadoop的更深入描述以及一些有趣的预测。




图文并茂:5分钟了解Hadoop


图文并茂:5分钟了解Hadoop








大数据文摘精彩文章:

回复谷歌 看其在大数据领域的举措

回复院士 看众多院士如何讲大数据

回复色情 这个,你懂的,可是你真的懂吗?

回复隐私 看看在大数据时代还有多少隐私

回复医疗 查看医疗领域文章6篇

回复征信 大数据征信专题四篇

回复大国 "大数据国家档案"之美国等12国

回复体育 大数据在网球、NBA等应用案例

回复平安 中国平安相关大数据案例、新闻

回复志愿者 了解大数据文摘及如何加入

大数据文摘ID:BigDataDigest

专注大数据,每日有分享

覆盖千万读者的WeMedia联盟成员之一

以上是关于图文并茂:5分钟了解Hadoop的主要内容,如果未能解决你的问题,请参考以下文章

聚焦 | 图文并茂,5分钟让你搞懂TCP协议

5分钟学会撤池子 薄饼pancakeswap教程 撤销流通池图文课程

centos7.5+hadoop3.1.2实战图文攻略--2019持续更新

图文详解Hadoop集群搭建(CentOs6.3)

图文详解Hadoop集群搭建(CentOs6.3)

如何一分钟做好PPT图文排版?