Spark学习入门

Posted ahu-lichang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark学习入门相关的知识,希望对你有一定的参考价值。

 Spark 是一种“One Stack to rule them all”通用的大数据计算框架,期望使用一个技术栈就完美地

解决大数据领域的各种计算任务。

Spark特点:速度快、容易上手开发、超强的通用性、集成Hadoop、极高的活跃度。

 

 

 Spark的速度比MapReduce快:MR计算模型太死板,而且里面最好性能的就是shuffle,shuffle

中间的过程都是基于磁盘来读写的。而Spark是基于内存进行计算的。

Spark缺陷:Spark是基于内存进行计算的,如果数据量太大,没有调优的情况下,会出现OOM。

但是此时MR尽管运行速度慢,但是其可以完成任务。

 Spark替代的是Hive的查询引擎,而不是Hive的全部!!!

 

 

 Spark Streaming严格意义上来说,是一种准实时的计算框架。而Storm是真正意义上的实时计算框架。

Spark Streaming的吞吐量远远比Storm大。

 

以上是关于Spark学习入门的主要内容,如果未能解决你的问题,请参考以下文章

Spark学习10_1 sparkMllib入门与相关资料索引

Spark学习入门

学习随笔--Spark java开发入门

数据分析高阶技能快速!入门Spark MLlib机器学习库

学习笔记Spark—— Spark入门

Spark机器学习:Spark 编程模型及快速入门