请描述下大数据三大平台hadoop,storm,spark的区别和应用场景

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了请描述下大数据三大平台hadoop,storm,spark的区别和应用场景相关的知识,希望对你有一定的参考价值。

Hadoop 当前大数据管理标准之一,运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集还是离线处理,批处理比较多,用的比较广的是hive
Storm 用于处理高速、大型数据流的分布式实时计算系统。为Hadoop添加了可靠的实时数据处理功能
spark基于内存的,吞吐量比storm大一点。而且spark集成的sparkSQL,MLlib,Graph貌似比较方便 !
参考技术A Spark已经取代Hadoop成为最活跃的开源大数据项目,但是,在选择大数据框架时,企业不能因此就厚此薄彼
近日,著名大数据专家Bernard Marr在一篇文章中分析了Spark和 Hadoop 的异同
Hadoop和Spark均是大数据框架,都提供了一些执行常见大数据任务的工具,但确切地说,它们所执行的任务并不相同,彼此也并不排斥
虽然在特定的情况下,Spark据称要比Hadoop快100倍,但它本身没有一个分布式存储系统
而分布式存储是如今许多大数据项目的基础,它可以将 PB 级的数据集存储在几乎无限数量的普通计算机的硬盘上,并提供了良好的可扩展性,只需要随着数据集的增大增加硬盘
因此,Spark需要一个第三方的分布式存储,也正是因为这个原因,许多大数据项目都将Spark安装在Hadoop之上,这样,Spark的高级分析应用程序就可以使用存储在HDFS中的数据了
与Hadoop相比,Spark真正的优势在于速度,Spark的大部分操作都是在内存中,而Hadoop的MapReduce系统会在每次操作之后将所有数据写回到物理存储介质上,这是为了确保在出现问题时能够完全恢复,但Spark的弹性分布式数据存储也能实现这一点
另外,在高级数据处理(如实时流处理、机器学习)方面,Spark的功能要胜过Hadoop
在Bernard看来,这一点连同其速度优势是Spark越来越受欢迎的真正原因
实时处理意味着可以在数据捕获的瞬间将其提交给分析型应用程序,并立即获得反馈
在各种各样的大数据应用程序中,这种处理的用途越来越多,比如,零售商使用的推荐引擎、制造业中的工业机械性能监控
Spark平台的速度和流数据处理能力也非常适合机器学习算法,这类算法可以自我学习和改进,直到找到问题的理想解决方案
这种技术是最先进制造系统(如预测零件何时损坏)和无人驾驶汽车的核心
Spark有自己的机器学习库MLib,而Hadoop系统则需要借助第三方机器学习库,如Apache Mahout
实际上,虽然Spark和Hadoop存在一些功能上的重叠,但它们都不是商业产品,并不存在真正的竞争关系,而通过为这类免费系统提供技术支持赢利的公司往往同时提供两种服务
例如,Cloudera 就既提供 Spark服务也提供 Hadoop服务,并会根据客户的需要提供最合适的建议
Bernard认为,虽然Spark发展迅速,但它尚处于起步阶段,安全和技术支持基础设施方还不发达,在他看来,Spark在开源社区活跃度的上升,表明企业用户正在寻找已存储数据的创新用法

storm与hadoop的对照

   hadoop 是实现了 mapreduce 的思想,将数据切片计算来处理大量的离线数据。

hadoop处理的数据必须是已经存放在 hdfs 上或者类似 hbase 的数据库中。所以
hadoop 实现的时候是通过移动计算到这些存放数据的机器上来提高效率而 storm
不同,storm 是一个流计算框架。处理的数据是实时消息队列中的,所以须要我们
写好一个 topology 逻辑放在那,接收进来的数据来处理,所以是通过移动数据平均
分配到机器资源来获得高效率。
   
      hadoop 的长处是处理数据量大(瓶颈是硬盘和 namenode,网络等),分析
灵活,可以通过实现 dsl,mdx 等拼接 hadoop 命令或者直接使用 hive。pig 等来
灵活分析数据。适应对大量维度进行组合分析缺点就是慢:每次运行前要分发 jar 
包,hadoop 每次 map 数据超出阙值后会将数据写入本地文件系统,然后在 reduce 
的时候再读进来。
   
   storm 的长处是全内存计算,由于内存寻址速度是硬盘的百万倍以上,所以 storm 
的速度相比較 hadoop 很快(瓶颈是内存。cpu)缺点就是不够灵活:必需要先写
好 topology结构来等数据进来分析。

以上是关于请描述下大数据三大平台hadoop,storm,spark的区别和应用场景的主要内容,如果未能解决你的问题,请参考以下文章

技术干货流式计算 Spark Streaming 和 Storm 对比

流数据分析平台Storm简介

响应式编程(上):总览

Hadoop三大组件

HadoopPostgreSQL 与 Storm 全面解读,你更习惯用哪个?

[转]hadoop,spark,storm,pig,hive,mahout等到底有什么区别和联系?