Spark从入门到精通
Posted sky-chen
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Spark从入门到精通相关的知识,希望对你有一定的参考价值。
什么是Spark
- 大数据计算框架
- 离线批处理
- 大数据体系架构图(Spark)
- Spark包含了大数据领域常见的各种计算框架:比如Spark Core用于离线计算,Spark SQL用于交互式查询,Spark Streaming用于实时流式计算,Spark MLib用于机器学习,Spark GraphX用于图计算
- Spark主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS、Hive、HBase)等,,以及资源调度(Yarn)
- Spark+hadoop的组合是大数据领域最热门的组合,也是最有前景的组合
Spark与MapReduce计算过程,Spark基于内存进行计算,所以速度更快
Spark整体架构图
Spark的特点
- 速度快:基于内存进行计算(当然也有部分计算基于磁盘,比如shuffle)
- 容易上手开发:Spark的基于RDD的计算模型,比Hadoop的基于Map-Reduce的计算模型要更加易于理解,更加易于上手开发,实现各种复杂功能,比如二次排序,topn等复杂操作时,更加便捷
- 超强的通用性:Spark提供了多种计算组件
- 集成Hadoop:Spark与Hadoop进行了高度的继承,完成double win
- 极高的活跃度
待续...
以上是关于Spark从入门到精通的主要内容,如果未能解决你的问题,请参考以下文章
spark2.2 从入门到精通全套视频教程(含网盘下载地址)
「Spark 从精通到重新入门」Spark 中不可不知的动态优化
「Spark 从精通到重新入门」Spark 中不可不知的动态资源分配