大数据处理为何选择spark？

Posted 2023-02-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据处理为何选择spark？相关的知识，希望对你有一定的参考价值。

参考技术A 大数据处理为何选择Spark，而不是Hadoop？

一、基础知识

1、Spark

Spark是一个用来实现快速而通用的集群计算的平台。

在速度方面，Spark扩展了广泛使用的MapReduce计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。

Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

2、Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

很多初学者，对大数据的概念都是模糊不清的，大数据是什么，能做什么，学的时候，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习扣扣群：740041381，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。

二、大数据处理选择

Spark和Hadoop都可以进行大数据处理，那如何选择处理平台呢？

1.处理速度和性能

Spark扩展了广泛使用的MapReduce计算模型，支持循环数据流和内存计算。

Hadoop进行计算时，需要从磁盘读或者写数据，同时整个计算模型需要网络传输，导致MapReduce具有高延迟的弱点。

据统计，基于Spark内存的计算速度比Hadoop MapReduce快100倍以上，基于磁盘的计算速度也要快10倍以上。

2.开发难易度

Spark提供多语言(包括Scala、Java、Python)API，能够快速实现应用，相比MapReduce更简洁的代码，安装部署也无需复杂配置。使用API可以轻松地构建分布式应用，同时也可以使用Scala和Python脚本进行交互式编程。

以上是关于大数据处理为何选择spark？的主要内容，如果未能解决你的问题，请参考以下文章

31页PPT：基于Spark的移动大数据挖掘

入门大数据---Spark开发环境搭建