深度解析Hadoop与大数据
Posted 小象
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度解析Hadoop与大数据相关的知识,希望对你有一定的参考价值。
译者:付军
原文链接:http://www.datamation.com/data-center/hadoop-and-big-data.html
深度解析Hadoop与大数据
Hadoop与大数据都极大地影响了商业,然而,Hadoop和大数据之间的确切关系还有待讨论。
Hadoop是一种开源的分布式计算平台,可以利用成千上万个服务器节点来处理大量数据。而大数据在通过定量-定性的科学分析,从存储的海量数据中获得见解方面赢得大量赞誉。
你可以把Hadoop想象成一匹马,那么大数据就是骑手。或者更准确地讲:Hadoop是建房的工具,大数据是正在建造的房子。无论那种比喻,都说明,这两项正在快速发展的技术有着不可分割的联系。
然而,Hadoop和大数据也都面临着同样的问题:都是相对比较新兴的技术,都面临着快速变动的挑战,这是不成熟而又快速发展的技术的特点。
Hadoop开发于2006年,然而直到2009年Cloudera的投入才使它走向商业化。几年后它引发大规模的争论。2015年6月的纽约时报 “ Companies Move On From Big Data Technology Hadoop”对它做了悲观的估计。此外,大数据专家(见下文)认为,Hadoop发展会遭受到重大阻力。
类似的,虽然大数据已经存在多年了,之前以“商业智能”一词出现,但它依然带来了很大的混乱。企业不清楚如何获得它的能力。无数的软件解决方案和可能的策略只会让一些用户觉得困惑。由于大数据的炒作的作用,也可能引起激烈反应。关于“大数据”这个词本身的界定就很模糊,“大数据”有多种定义。它通常被定义为“从大量数据中挖掘出具有操作性见解的过程”,它还囊括了机器学习、地理分析和其他一系列智能应用。
无论你怎么定义它,“大数据”将逐渐成为区分企业的工具。那些能从“大数据”解决方案中获得有竞争力见解的企业就获得了关键优势;而那些不能掌控这项技术的企业将会落后。
一大笔钱已经被盯上了。调研机构IDC预测,“大数据”技术和服务将以26.4%的年增长率增长到2018年,那时将形成一个414亿美元的全球市场。如果准确的话,这一预测将意味着“大数据”将以6倍于整个技术市场的速度快速增长。
Wikibon的研究预测出了相似的增长率;下图反映了“大数据”在近几年的指数级增长。鉴于“大数据”的爆炸式增长轨迹,毫无疑问,Hadoop——被视为一个关键的大数据处理工具——引起了各种规模的企业的极大兴趣。
图片来自:Wikibon
Hadoop和大数据是否是最完美的匹配“取决于你正在做什么,”Nick Heudecker说,一个专注于数据管理和数据集成的Gartner分析师。
“Hadoop当然允许你快速装载巨大数量的数据,而不需要做任何关于你存储了什么或者你保留了什么的妥协。当然这些确实有利于大量的大数据发现。”
然而,企业继续使用其他的大数据技术,Heudecker说。一个Gartner的调查显示,Hadoop是大数据技术的第三选择,在企业级数据仓库和云计算之后。
尽管Hadoop是主要的大数据工具,它并不是企业用户的第一选择。
企业级的数据仓库排在Hadoop之上作为主要的大数据工具是毫无疑问的。一个公司的完整历史和结构可以被存储在数据仓库中的数据展示出来。
而且,Heudecker说,基于Gartner的用户调研,“我们看到企业级数据仓库正在和多种不同的数据库结合在一起:SQL、图形数据库、内存技术、复杂处理技术,还有流处理技术。”
因此,尽管Hadoop是一个重要的大数据技术,在这一点上它仍然许多竞争者中的一个。“我认为将多种数据存储联合起来还是很有价值的,”Heudecker说。
也就是说,“Hadoop被用于处理一些事情;你的数据仓库可以用于处理另一些。我认为任何人都不想把所有的数据集中放在一个单一的平台上。你需要优化来应对你正在做的潜在工作量。”
Hadoop在一个大数据平台中提供了一个完整的生态系统。有时候被称为“数据操作系统”。
Mike Gualtieri,一个Forrester的分析师,主要研究方向是大数据技术和Hadoop,解释说,Hadoop是一个更大生态系统的一部分——但是它是那个数据生态系统中的基础元素。“我可能说‘Hadoop and friends’对大数据来说是最完美的匹配,”Gualtieri说。多种多样的工具能够联合起来达到最好的结果。“
例如,你需要流处理技术来处理实时数据。就有类似Data Torrent这样的软件可以运行在Hadoop上,可以包括流,还有Spark。你可能想要在内存中做批处理作业,尽管不是必须的,但是在Hadoop集群上运行Spark集群来处理将会非常方便。”
Hadoop在大数据宇宙中仍然处于主宰地位。“我认为Hadoop是一个数据操作系统,” Gualtieri说。它是一个通用的基础平台。它拥有一个操作系统有的一切能力:它有一个文件系统,有一种运行作业的方式。”并且提供商的社区和开源项目都在为Hadoop的健康发展添砖加瓦。“他们正在将它变成一个大数据平台。”
事实上,对大数据应用来说,Hadoop的价值已不仅仅是最初作为一个数据操作系统那么简单。Gualtieri看到,Hadoop也是一个应用平台。这个能力是由YARN提供的,YARN作为Hadoop的一部分,是一项集群管理技术(YARN代表Yet Another Resource Manager)。
“YARN确实是一个重要的组成部分,因为它允许大数据社区出现一些创新,”他说,“因为当一个提供商或者开源项目贡献了一些新东西,一些新的应用程序,无论它是机器学习、流、一个SQL引擎或者是一个ETL工具,最终,Hadoop编程一个应用平台同时也是一个数据平台。并且它有处理所有这些应用以及控制它们使用的资源这些基础能力。”
YARN和HDFS为Hadoop提供了多样化的功能
不管技术在未来的几年如何演变,在大数据初期的日子里,Hadoop永远占据一席之地。曾经有一段时间,当很多企业看到他们大量的数据时——也许是庞大的20TB——他们在本质上已经放弃了。他们假设这些数据量太大以至于不能从中挖掘出价值。
但是Hadoop改变了这一切, Mike Matchett说,Tenaja Group中专注于大数据的分析师。Hadoop的发展意味着“嗨,如果你有五十个空白的集群服务器节点——这不会花费你太多——你有商业服务器,你并不需要SAN因为你能够使用HDFS和本地磁盘,你可以用它做一些事情。你能发现大数据的价值。并且这正是Hadoop起飞的时候。”
根据Gartner的研究报告,深度使用Hadoop的行业就是那些银行和金融服务业。其他的Hadoop早期使用者包括:“通常来说是服务,我们定义为软件销售人员或者IT服务人员,”Heudecker 说。金融业,制造业和自然资源也能看到Hadoop用户。
这些都是能够产生更多不同种类数据的行业。Heudecker 说:“我认为Hadoop当然适合这些行业,因为现在你不必要向你将要保留或者将要存储什么东西作出妥协,你只是需要存储所有的东西,稍后再搞明白这些事情。”
另一方面,有一些落伍者,Teneja Group的Matchett说:“你看到有人说‘我们使用结构化的数据仓库做得很好。我们正在做得市场并没有很多实时的应用,或者我并没有看到这方面需求。”
但是这些较晚采用的人将会逐渐使用,他说,“他们会说,‘如果我们有一个网站并且我们会跟踪用户的行为,这就会产生一个快速的大数据流,我们就会在市场数据上使用它’”,其实事实上,他问道:“我们并没有一个网站和一个这种类型的用户群?”
Forrester的Gualtieri注意到Hadoop的吸引力很大。他说:“我们做了一个Hadoop波形图,参考的是Forrester的报告:大数据Hadoop解决方案。这是我们去年评估和发布的报告,并且在那一年发布的关于各种主题的上千份Forrester报告中,这一篇是阅读量排在第二名的。”他说,如此受欢迎正是Hadoop作为数据处理系统的根基所在。
而且,Gaultieri 说:“投资的数量,我谈论的不是来自创业者的投资,而是那些来自像SAS、IBM、微软这样的公司及所有商业公司的投资,他们的目标就是让它变的简单并且能够处理更加复杂的东西,因此它将会产生巨大的价值。”
他预见一个潜在的场景,Hadoop会成为每个操作系统的一部分。同时,使用者仍然在不断增长,“我估计在接下来的几年中,可能是2-3年,企业将会百分之一百部署Hadoop,”Gaultieri 指出一个现象,他称之为“Hadoopenomics”,即Hadoop的能力开启了一个适合大数据场景的完整生态系统,主要是因为相对于复杂的数据仓库系统,Hadoop提供了低代价的存取数据方案。他说:“它不像数据仓库那样,但是它对很多事情都有好处。”
然而,在Hadoop的世界里并不是所有都是美好的。最近的关于Hadoop使用者的Gartner报告指出“围绕着商业价值和技能还面临着巨大的挑战,投资仍然在试探阶段。”
2015年五月,Heudecker 和Gartner 的分析师Merv Adrian合作的报告中这样说:“尽管有很多关于早期的采用者成功案例的炒作和报道,54%的受访者表示此时没有投资计划,只有18%的受访者在未来两年中有对Hadoop的投资计划。此外,这些早期的采用者似乎并没有在未来的24个月中倡导大量使用Hadoop;事实上,在未来两年中,真正开始的公司比当时计划开始的要少很多。”
“只有26%的受访者声称他们正在使用Hadoop进行部署,试点或者测试,11%计划在12个月之内投资,7%正在计划24个月之内进行投资。回应显示,关于缺乏投资意愿主要有两个原因。第一,一些回应显示Hadoop并不是一个优先方案。第二个原因是Hadoop对于商业面临的问题有些矫枉过正,这意味着相对于预期收益实施的Hadoop的机会成本太高。”
Gartner报告中关于Hadoop的悲观消息:鉴于有这很多公司没有使用Hadoop计划或者刚开始Hadoop旅程,至少在未来24个月,对Hadoop的需求量显得颇为贫乏。而且,缺乏对使用Hadoop的短期规划表明,尽管对于大数据现象的热情持续高涨,对Hadoop的需求实际没有增加。对提供商来说,收入增长最好的希望似乎是将现有的用户群带入到更大的部署集群中去。
我问Heudecker关于这些Hadoop的阻碍,并且他提到了缺乏有高级Hadoop技能的IT专业人才的问题:“我们谈论了很多大型金融服务机构,他们只是刚刚开始使用Hadoop,”他说,“然后我们问,‘谁帮助了你?’他们回答‘没有人,因为我们找的公司在使用Hadoop方面的经验和我们是一样的。’因此,当地球上最大的金融服务公司都不能为自己的Hadoop项目寻求到帮助,这对全球30000多公司又意味着什么呢?”
缺乏Hadoop技能的专业人才这个问题是要真正考虑的,Heudecker说。“这从我们的数据中以及我们和客户的谈话中就能证明,并且我认为在Hadoop技能在市场上多起来之前还需要一段时间。”
然而,针对Hadoop面临的短板即有此技术的工作者是一个‘神话’这样的观点,Gualtieri却表达了另外一种不同的看法。他说:“Hadoop是基于Java的,一个大企业有很多的Java程序员,而且具有多年经验的Java开发者仍然要学习新的框架。猜猜会怎么样?只需要找几个好的Java程序员并且说‘在Hadoop上做吧’然后他们将会搞定它。这并不困难。”Java程序员很快就能够运行一个做简单任务的示例应用程序,他说。
这些内部成长起来的Hadoop专家能够极大节省成本,他说:“不要花高价去请那些说‘我知道Hadoop’的Hadoop专家,当我和许多大企业中工作十年之久的员工交谈的时候,就我所知,他们已经变成Hadoop专家了。”
Gualtieri 说:“另一个让Hadoop易于使用的因素是SQL for Hadoop。SQL是开发者都知道的。它被很多商业智能专业人士所熟知,甚至是商业人士和数据分析师,对么?它很流行。” “并且目前Hadoop体系中有至少30中不同的SQL For Hadoop查询引擎。因此你根本不需要知道关于MapReduce的东西,为了完成一个高效的查询,你不需要知道任何关于分布式数据或者分布式作业的东西。”
Gualtieri指出了多种可用的Hadoop SQL解决方案:“Apache Drill、Cloudera Impala、Apache Hive …Presto、HP Vertica 、Pivotal Hawk、Microsoft Polybase···当然了所有的数据库公司和数据仓库提供商都有一个解决方案。他们已经改变了自己引擎的用途。并且有开源力量的支持。”所有(或者大多数)解决方案都展示了它们的可用性。
Matchett的观点在Heudecker(即Hadoop面临着缺乏有技能的工作者) 和Gualtieri的观点(即相信内部的饿Java开发者和提供商解决方案能够解决技能不足的问题)中间。 “有许多人们可以创造出里程碑事件的地方,”他说,对于简单易用的Hadoop部署来说,特别是AWS所提供的。
“你和我都能够去Amazon,带着信用卡,购买一个EMR cluster(这是一个Hadoop集群),启动它而不需要知道其他任何东西,使用你的Amazon帐户,你能够在十分钟之内完成这件事而且拥有一个大数据集群。”
然而,Matchett 说:“在一些专业性方面或者产能规模方面,你还是需要专家的,就像你使用RDBMS的时候也需要一样,它们之间有极大的相似性。”自然了,这些专家会更贵,而且很难找到。
可以确信的是,这些是简单一点的解决方案:“有许多创业公司致力于提供基于cloud和基于Web的服务,他们并不需要在公司内部建立并运行Hadoop集群,”Matchett 说,“他们将在云端集群部署。”
尽管这样,在某些方面他们可能还是需要顶尖的人才:“他们可能仍然需要一个数据科学家来解决绝无仅有的复杂问题,他们需要科学家搞清楚自己能够做些什么不同于竞争对手或者其他人的东西。”
正在壮大的Hadoop提供商社区提供了一个拜占庭式的解决方案。风格和配置都很丰富。这些提供商都基于这样一个事实,即Hadoop有着一些与生俱来的复杂性——意思是购买者需要一些帮助。Hadoop由许多软件的组件构成,所有的这些组件都需要和谐的工作。
再加上潜在的混乱,整个生态系统以不同的速度向不同的方面发展。 处理这些挑战一个有利条件是和提供商一起合作,Heudecker 说。“他们会为你做这些工作。”正如上面提到的,这些解决方案中一个主要的方法是SQL——Heudecker 把SQL称为“数据管理界的通用语言。”
是否有一个特殊的SQL解决方案能够和Hadoop完美匹配呢?
Heudecker说:“我认为在未来的3-5年中,你可能会看到不是某一个SQL解决方案会成为赢家,而是会看到一些,这取决于你想要做什么,在一些情况下,对于某些用例来说Hive可能是你的选择。另外一些情况下你可能想要使用Drill或者是Presto,这取决于你工具的支持程度和你想要完成的东西。”
“对于市场份额竞争中的赢家或者输家?”我认为还太早了,我们将要讨论的是幸存者而不是胜利者。”提供商新兴的社区趋向于吹捧一个关键的特点:易用性。Matchett解释到:“如果你去参加行业活动,那里会充斥着创业者,它们会说‘嗨,我们由一个新的接口,允许使用者仅仅只是拖拽即可利用大数据能力而无需知道任何其它东西。’”
他将Hadoop工具的迅速发展和过去几年虚拟化技术的发展做了对比。如果一个提供商想要销售它的产品,简单的用户接口是一个卖点。Hadoop提供商兜售他们的产品,声称“‘我们已经有这个功能,并且现在我们使它更易管理,’”Matchett 说。“‘我们使之日益成熟并且我们添加了安全性和远程访问功能,我们正在增强其可用性,为开发人员台添加一些在不需要知道太多的情况下控制它的方法。’”
尽管Hadoop日益成熟,仍然有一些大数据解决方案凌驾于它之上——以高价给那些需要更大能力的企业。
在Teradata warehouse或者IBM Netezza, Oracle Exadata能做的事情和Hadoop之间仍然有不小的差距。Forrester的Gualtieri说。“我意思是如果你需要高并发,你有很多的用户并且他们会执行很复杂的查询而且需要保证查询速度,这就像如果你在一个比赛中,你需要赛车一样。”在这种情况下你只是需要最好的。“因此,这里仍然有一个性能的差距,还有很多工程工作需要去完成。”
他发现Hadoop设备的崛起促进了Hadoop技术的发展。“Oracle有设备,Teradata有设备,HP正在推出基于Moonshot的设备,有Cray Computer,还有些其他的,”他说,还有Cisco 。
目前发生的一切还远不能称之为“appliance 1.0 for Hadoop,”Gualtieri 说。第一代只是找到一个柜子,在里面放一些节点,安装上Hadoop并提供给用户使用。“但是,他们现在所做的正是他们所说的,‘Hadoop看起来就停留在这个阶段。我们是怎么创建一个工程解决方案来帮助克服Hadoop一些天生的瓶颈呢?提高IO吞吐量,使用更多的缓存,在真正需要的时候使用计算资源?’因此,现在我们正在创建一个更加工程化的系统。”
Matchett也说,在第一波浪潮过后可能会在Hadoop设备上有新的兴趣。“在几年前,DNN有一个HScaler appliance,他们将超级无敌的存储和计算模块打包在一起作为框架售卖,你可以购买这个Hadoop设备。”
设备对商业有吸引力。客户喜欢免费下载Hadoop,但是当他们将它变成工作机器时,这个工作(如上所述)需要专家的支持。购买一个预编译的设备很简单,公司“不希望雇佣一个专家,花费六个月自己做出类似的东西,”Matchett 说。“因此,他们只是快速购买一个已经预设好的设备,就像一个VCE设备如VBlock,或者其他一些人正在考虑出售的一个超融合版本。因此,你购买了一个框架···并且它已经做好了运行Hadoop,Spark等的准备。”简而言之,头痛的事情少了,生产力多了。
一个讨论或者说是辩论正在大数据社区如火如荼的进行:当然,Hadoop很热火,但是Spark正在兴起。可能Spark更好些——一些技术观察者大肆宣扬它的优点——并且Hadoop(一些观察着表示)将会很快从其高位消亡。
像Hadoop一样,Spark是一个集群计算平台(Hadoop和Spark都是Apache的项目)。Spark在作为需要快速计算的复杂数据处理作业的一个较好的选择方面赢得了很多赞誉。它基于内存的架构和有向无环图(DAG)处理远比Hadoop的MapReduce要快——至少目前是这样。当然Spark也有自己缺点。例如,它没有自己的文件系统。通常情况下,IT专业人员认为Hadoop最适合于处理量大的任务而Spark适合处理速度有要求的任务,但事实上界限并没有那么清楚。
Spark的支持者指出,当数据集能够装入内存的时候处理速度相当快。
“我认为这里有很多的炒作",Gualtieri 说。可以确信的是,他高度评价Spark和它的能力。”有一些事情它不能够很好的我完成。Spark,举个例子,没有自己的文件系统。因此它就像汽车没有轮子一样。”
这场辩论没有考虑到如何让Spark或者Hadoop发展快一点。例如,Gualtieri 说,“一些人将会说Hadoop之所以会比Spark慢是因为它是基于磁盘的。从现在六个月后它真的还必须要基于磁盘么?事实上,一部分Hadoop社区正在致力于让Hadoop支持SSD,之后是文件和内存。因此,人们需要意识到这点,特别是现在处在Spark和Hadoop激战中的那些。”
这两种处理引擎经常被比较。“现在,大多数使用Hadoop的人说相对于Spark的DAG引擎,MapReduce有点蹩脚”,Gualtieri 说。“DAG引擎之所以优于MapReduce是因为它帮助程序员更好的并行执行作业。但是谁又能说没有人可以为Hadoop编写一个DAG引擎呢?他们可以。因此,这就是我所说的:这并不是一个静止的世界,代码库没有被冻结。这正是这个谈论让我恼火的地方,就是它假设这些技术是停滞不前的而且它们不会发展或者变得更好了。”
但是,当然它们是——可能是宜早不宜迟。
像Hadoop一样,Spark包含一组不停发展的工具和特征来扩大主平台的功能。
最终,Hadoop和Spark的辩论可能并不重要,Matchett说,因为这两种技术可能会以某种方式合并。在任何情况下,“你有的仍然是一个大数据生态系统,并且不管是Spark项目赢得了成功,或者是MapReduce项目赢了,现在Spark是Apache的一部分。它们都是那个生态系统的一部分。”
随着Hadoop和Spark的发展,“他们可能合并,也可能联姻,也可能偏离不同的方向。我认为重要的是你能够在同一个集群中同时运行Hadoop和Spark。”
一个公司在组建一个大数据工具集的时候会面临很多选择,Matchett 指出。“如果当它是块白板并且说‘我遇到这样一个问题,我想解决它,我应该使用Map Reduce么?我应该使用Spark么?我应该使用其他很多方法么?或者一个SQL数据库或者一个图形数据库?’这是一个关于架构的开放式讨论。”最终会有一些完全正确和错误的答案,唯一的问题是这个解决方案对于特定的场景是最好的。
许多大数据的实践者们找到这样一个场景,Spark和Hadoop一前一后协作,达到两全其美的效果,而不是选择其中一个。
很明显,在如何成为业务决策的新圣杯方面,已经有很多关于大数据的炒作。
这些炒作可能已经自生自灭了。“大数据基本上正在变成数据,”Heudecker这么认为。“是时候让这些炒作成为过去并且开始考虑它对你业务的价值在哪里。”重要的一点:“不要把大数据当作自己的终结。它必须由业务需求来驱动。”
至于Hadoop在这方面的角色,它的成功可能包含一个悖论。随着时间的推移,Hadoop的成长可能会不太明显。他可能变得无所不在,而不再被视为一个独立的工具。
“随着时间的推移,Hadoop最终会合并进您的基础信息架构中,”Huedecker说。“它不再是一个either/or的选择。并且将来它也不会是那样。可能是我会有多个数据存储。我将会根据我必须对业务遵守的SLA来使用它们。所以你将会有各种不同的数据存储。”
按照Gualtieri的观点,Hadoop不久的将来是基于SQL的。“我将要说得是今年SQL on Hadoop对Hadoop来说是个杀手级的应用,”他说。“这样的应用程序使得企业可以很容易就能采用Hadoop。”他预言:“从现在起两年内,你将看到企业构建专门应用程序在Hadoop上运行。” 展望未来,Gualtieri认为物联网所具有的海量大数据的潜力将会提振Hadoop。例如,他指出通过有线电视盒子创造的海量数据。所有的数据需要被存储在某个地方。
“你可能会想到放在最经济的地方,即Hadoop中的HDFS,”他说,“并且你可能像要分析这些数据,来看看你是否能够预测这个时间是谁在看电视,并且预测用户趋势的数量,而且你可能会在Hadoop集群中做这件事。也可能是在Spark中。或许只是将一个子集数据放入Spark。”
说句题外话,Gualtieri指出了关于Hadoop和云的关键点,他称之为“data gravity的神话”。企业经常会问他将他们的数据存在哪个地方:在云端?传统的观点是,你应该将它们存储在你经常用来分析和处理的地方。然而,Gualtieri却不同意——这样的态度实在太局限了,他说。
这也是为什么data gravity是一个神话的原因:“将1TB的数据移到云端大概只需要50分钟左右,并且很多企业只有100TB左右.”因此,如果你的Hadoop集群构建在云端,它只需要几个小时来将已存在的数据移到云端,之后都是增量更新。“我希望去也都能明白这一点,所以他们中的一些可以在实际中也使用云,”他说。
当Matchett谈到Hadoop和大数据的未来,他看到了联合的影响:任何数量的提供商和解决方案联合在一起就能更加灵活的处理各种挑战。“我们刚开始从自有平台和具有规模化数据处理的商业平台联合中看到一点点能力的不断增强,”他说。他指出了MapReduce和Spark的联合。“我们也有那些可以运行在这些平台上的SQL数据库。并且我们看到像 Vertica这样的数据库一开始就将数据库运行在相同的平台上……来自EMC的Green Plum,还有来自Teradata的一些。”
他补充说:“如果你考虑这种推动作用,data lake就更有意义了,它不再作为a lake of data,而是作为一个数据处理平台,你能够利用存储在那里的数据做任何事情。”
Hadoop和大数据在将来会包含各种技术的混合并相互匹配在一起——包括现在兴起的容器技术。
“你开始看到正在发生的一切,工作负载调度和容器调度以及容器集群管理,并且在这方面大数据逐步参与进来,你意识到:好吧,MapReduce是什么,它实际上是一个得到Map的结果的Java作业。而且容器到底是什么,它是一个装有Java应用程序的容器……你开始说,我们真的会看到一种新型的数据中心架构,并且它起源于Hadoop。”
所有这些如何演变呢?正如Matchett所说,“故事还在继续。”
以上是关于深度解析Hadoop与大数据的主要内容,如果未能解决你的问题,请参考以下文章