大数据中的Spark指的是啥？

Posted 2023-02-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据中的Spark指的是啥？相关的知识，希望对你有一定的参考价值。

Spark是一种通用的大数据计算框架，和传统的大数据技术MapReduce有本质区别。前者是基于内存并行计算的框架，而mapreduce侧重磁盘计算。Spark是加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用于构建大型的、低延迟的数据分析应用程序。
Spark同样支持离线计算和实时计算两种模式。Spark离线计算速度要比Mapreduce快10-100倍。而实时计算方面，则依赖于SparkStreaming的批处理能力，吞吐量大。不过相比Storm，SparkStreaming并不能做到真正的实时。
Spark使用强大的函数式语言Scala开发，方便简单。同时，它还提供了对Python、Java和R语言的支持。
作为大数据计算框架MapReduce的继任者，Spark具备以下优势特性。
1，高效性
不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。
2，易用性
不同于MapReduce仅支持Map和Reduce两种编程算子，Spark提供了超过80种不同的Transformation和Action算子，如map,reduce,filter,groupByKey,sortByKey,foreach等，并且采用函数式编程风格，实现相同的功能需要的代码量极大缩小。
3，通用性
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询（Spark SQL）、实时流处理（Spark Streaming）、机器学习（Spark MLlib）和图计算（GraphX）。
4，兼容性
Spark能够跟很多开源工程兼容使用。如Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，并且Spark可以读取多种数据源，如HDFS、HBase、MySQL等。参考技术A 谢谢邀请！
spark最初是由伯克利大学的amplab于2009年提交的一个项目，现在已经是Apache软件基金会最活跃的项目，对于spark,apache给出的官方定义是：spark是一个快速和通用的大数据处理引擎。可以理解为一个分布式大数据处理框架，spark是基于Rdd(弹性分布式数据集)，立足于内存计算，在“one stack to rule them all” 的思想引导下，打造了一个可以流式处理（spark streaming）,机器学习（mllib）,实时查询（spark sql）,图计算（graphx）等各种大数据处理，无缝连接的一栈式计算平台，由于spark在性能和扩展上快速，易用，通用的特点，使之成为一个一体化，多元化的大数据计算平台。
spark的一栈式优势
1 快速处理，比hadoop快100倍，因为spark是基于内存计算，而hadoop是基于磁盘计算
2易用性，spark支持多种语言
3 通用性强，可以流式处理，及时查询，图计算，机器学习
4 可以和hadoop数据集成，运行在yarn上，统一进行资源管理调度
5 活跃和壮大的社区
以上是关于spark的简单定义，希望我的回答可以采纳，谢谢参考技术B 以计算PI为例子
进入spark的安装目录
单机local模式提交任务
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples*.jar
yarn-client模式执行计算程序
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client examples/jars/spark-examples*.jar
Standalone模式计算
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://masterIp:7077 examples/jars/spark-examples*.jar
转载于:https://my.oschina.net/u/3264690/blog/1528169 参考技术C Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是--Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业，但是实际上它是对 Hadoop 的补充，可以在 Hadoop 文件系统中并行运行。通过名为 Mesos 的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发，可用来构建大型的、低延迟的数据分析应用程序。

以上是关于大数据中的Spark指的是啥？的主要内容，如果未能解决你的问题，请参考以下文章

ip指的是啥呢?

大数据学习路线是啥？

如何用形象的比喻描述大数据的技术生态？Hadoop、Hive、Spark 之间是啥关系？

大数据是啥？

在 python 或 spark 中获取大数据缺失值的最快方法是啥？

大数据可视化技术是啥？做大数据开发要会吗？