Linux里面spark作用是啥？

Posted 2023-04-21

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Linux里面spark作用是啥？相关的知识，希望对你有一定的参考价值。

Spark是通用数据处理引擎，适用于多种情况。应用程序开发人员和数据科学家将Spark集成到他们的应用程序中，以快速地大规模查询，分析和转换数据。与Spark最频繁相关的任务包括跨大型数据集的交互式查询，来自传感器或金融系统的流数据处理以及机器学习任务。
Spark于2009年开始运作，最初是加州大学伯克利分校AMPLab内部的一个项目。更具体地说，它是出于证明Mesos概念的需要而诞生的，Mesos概念也是在AMPLab中创建的。在Mesos白皮书《 Mesos：数据中心中的细粒度资源共享平台》中首次讨论了Spark，其中最著名的作者是Benjamin Hindman和Matei Zaharia。
2013年，Spark成为Apache Software Foundation的孵化项目，并于2014年初被提升为该基金会的顶级项目之一。 Spark是基金会管理的最活跃的项目之一，围绕该项目成长的社区包括多产的个人贡献者和资金雄厚的企业支持者，例如Databricks，IBM和中国的华为。
从一开始，Spark就被优化为在内存中运行。它比Hadoop的MapReduce等替代方法更快地处理数据，后者倾向于在处理的每个阶段之间向计算机硬盘写入数据或从计算机硬盘写入数据。 Spark的支持者声称，Spark在内存中的运行速度可以比Hadoop MapReduce快100倍，并且在以类似于Hadoop MapReduce本身的方式处理基于磁盘的数据时也可以快10倍。这种比较并不完全公平，这不仅是因为原始速度对Spark的典型用例而言比对批处理更为重要，在这种情况下，类似于MapReduce的解决方案仍然很出色。参考技术A 老师说要我们学习LINUX，说是要在哪个里面编程，但是我还是不知道为什么要在LINUX里面编呢？听说LINUX很稳定，是不是这个原因呢？
　　本文前提已经确安装scala,sbt及spark 简述程序挂载集群运行步骤：
　　1、构建sbt标准项目工程结构：SBT项目工程结构图其：~/build.sbt文件用配置项目基本信息（项目名、组织名、项目版本、使用scala版本或者再配置些项目所需依赖包）；project/build.properties文件配置要使用版本sbt项目操作；project/plugins.sbt文件给项目添加所需插件；project/Build.scala文件项目进行些复杂高级配置；详细sbt安装配置实用参见博文：
　　2、相应目录编写程序spark程序必须要创建SparkContext实例SparkContext("master", "projectName", "SPARK_HOME", "yourProject.jar path")
　　3、sbt compile命令编译程序错sbt package命令程序打包默认打包jar文件存放路径：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
　　4、打包jar问价添加SPAK_CLASSPATH（linux根据作用范围同种更改环境变量式说我配置式：spark根目录conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx）
　　5、配置环境变量spark根目录使用./run脚本运行程序例：./run spark.examples.SparkPi spark://masterIP:port注意程序涉及IO操作起默认路径SPARK_HOME；至于何修改路径待研究
转载仅供参考参考技术B Spark 读取文件系统的数据 (1)在spark-shell 中读取Linux 系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; Shell命令: [root@master spark-... 参考技术C 老师说要我们学习LINUX，说是要在哪个里面编程，但是我还是不知道为什么要在LINUX里面编呢？听说LINUX很稳定，是不是这个原因呢？
本文前提已经确安装scala,sbt及spark 简述程序挂载集群运行步骤：
1、构建sbt标准项目工程结构：SBT项目工程结构图其：~/build.sbt文件用配置项目基本信息（项目名、组织名、项目版本、使用scala版本或者再配置些项目所需依赖包）；project/build.properties文件配置要使用版本sbt项目操作；project/plugins.sbt文件给项目添加所需插件；project/Build.scala文件项目进行些复杂高级配置；详细sbt安装配置实用参见博文：
2、相应目录编写程序spark程序必须要创建SparkContext实例SparkContext(＂master＂, ＂projectName＂, ＂SPARK_HOME＂, ＂yourProject.jar path＂)
3、sbt compile命令编译程序错sbt package命令程序打包默认打包jar文件存放路径：项目根目录/target/scala-xx.xx.xx/your-project-name_xx.xx.xx-xx.jar
4、打包jar问价添加SPAK_CLASSPATH(linux根据作用范围同种更改环境变量式说我配置式：spark根目录conf/spark-env.sh文件添加SPARK_CLASSPATH:xxxxxxxx)
5、配置环境变量spark根目录使用./run脚本运行程序例：./runspark.examples.SparkPispark://masterIP:port注意程序涉及IO操作起默认路径SPARK_HOME；至于何修改路径待研究

Linux里面top命令作用是啥？

top命令经常用来监控linux的系统状况，是常用的性能分析工具，能够实时显示系统中各个进程的资源占用情况。
top的使用方式 top [-d number] | top [-bnp]
参数解释：
-d：number代表秒数，表示top命令显示的页面更新一次的间隔。默认是5秒。 -b：以批次的方式执行top。 -n：与-b配合使用，表示需要进行几次top命令的输出结果。 -p：指定特定的pid进程号进行观察。
在top命令显示的页面还可以输入以下按键执行相应的功能（注意大小写区分的）：
?：显示在top当中可以输入的命令 P：以CPU的使用资源排序显示 M：以内存的使用资源排序显示 N：以pid排序显示 T：由进程使用的时间累计排序显示 k：给某一个pid一个信号。可以用来杀死进程 r：给某个pid重新定制一个nice值（即优先级） q：退出top（用ctrl+c也可以退出top）。参考技术A top命令经常用来监控linux的系统状况，是常用的性能分析工具，能够实时显示系统中各个进程的资源占用情况。top的使用方式 top [-d number] | top [-bnp] 参考技术B 使用SSHClient客户端连接到远程Linux系统。使用top命令查看系统的当前运行的情况。对top命令执行的结果做了简单的图解,下面针对每一项做详细的解释参考技术C 你可以man一下top，上面有详细的解释，如果说连man都不会用，就不要干这行了参考技术D 手边没电脑

不能啊，要不然可以man top看看，

以上是关于Linux里面spark作用是啥？的主要内容，如果未能解决你的问题，请参考以下文章

Linux里面ELK作用是啥？

Linux里面ifconfig wlan0作用是啥？

Linux里面du命令作用是啥？

Linux里面netstat -n 命令作用是啥？

Linux里面hdfs作用是啥？

Linux里面pwd命令作用是啥？