如何安装spark&tensorflowonspark

Posted 2023-04-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了如何安装spark&tensorflowonspark相关的知识，希望对你有一定的参考价值。

参考技术A 1. 安装Scala最好选择一个2.10.X，这样对spark支持比较好，不会出现一些幺蛾子。这有个教程，应该是可以的http://www.runoob.com/scala/scala-install.html
2. 安装spark大概是这里面最简单的事了吧点这里下载spark。鉴于我们已经安装好了hadoop，所以我们就下载一个不需要hadoop的spark包，就是这个with user-provided Hadoop这个

我用的是1.6.0好像大家用这个的比较多，最新的已经到2.1.x了。
解压到你想安装的目录
sudo tar -zxf ~/下载/spark-1.6.0-bin-without-hadoop.tgz -C /usr/local/
cd /usr/local
sudo mv ./spark-1.6.0-bin-without-hadoop/ ./spark
sudo chown -R hadoop:hadoop ./spark # 此处的 hadoop 为你的用户名

之后很重点的一步是修改spark-env.sh的内容，好像要改好多好多。。。
cd /usr/local/spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim conf/spark-enf.sh

这里是我的spark-env.sh的一些配置
export HADOOP_HOME=/home/ubuntu/workspace/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export HADOOP_HDFS_HOME=/home/ubuntu/workspace/hadoop

export SPARK_DIST_CLASSPATH=$(/home/ubuntu/workspace/hadoop/bin/hadoop classpath)

export JAVA_HOME=/home/ubuntu/workspace/jdk/
export SCALA_HOME=/home/ubuntu/workspace/scala

export SPARK_MASTER_IP=192.168.1.129
export SPARK_WORKER_MEMORY=1G

export SPARK_MASTER_PORT=7077
export SPARK_WORKER_CORES=1
export SPARK_WORDER_INSTANCES=2

export SPARK_EXECUTOR_INSTANCES=2118

属性不明白的可以打开spark-env.sh，里面前面又好多注释，讲各种属性的意思。（ps:这里有个SPARK_DIST_CLASSPATH一定要照着改对，否则会运行不起来）
这是给力星大大的教程写得很好。
http://www.powerxing.com/spark-quick-start-guide/
3. 分布式spark部署
重点来了，当然，教程在这里
https://my.oschina.net/jackieyeah/blog/659741
这里好像没什么坑，但是好像我记得刚开始的时候别的机器上的worker老是启动不起来，但是忘记是什么原因了，可能是免密登录没设置还是怎么的。
照着教程完成了之后，你就获得了spark的集群辣，撒花~(≧▽≦)/~
ps:这里还有个搭建standalone集群的简单介绍，Spark的Standalone模式安装部署

如何在idea中用maven配置spark和scala

1.准备工作
首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA，本文中使用的是win7系统，环境配置如下：
jdk1.7.0_15
scala2.10.4
scala官网下载地址：http://www.scala-lang.org/download/
如果是windows请下载msi安装包。
这两个可以在官网上下载jdk和scala的安装包就可以直接双击安装包运行安装即可。注意：如果以后是在本地编写好spark代码然后上传到spark集群上去运行的话，请一定保持两者的开发环境一致，不然会出现很多错误。
Intellij IDEA
在官网上下载一般选择右下角的Community版本，下载地址https://www.jetbrains.com/idea/download/#section=windows
2.在Intellij IDEA中安装scala插件
安装好Intellij IDEA并进入idea的主界面
（1）找到右下角的Configure选项中Plugins并打开

（2）点击左下角Browse repositories…

（3）在搜索框里搜scala，出现相对于的Scala插件，这里面我的已经安装完成了，没安装的会显示install的字样以及相对于的版本，这里面不建议在线安装插件，建议根据Updated 2014/12/18去下载离线的scala插件，比如本文中的IDEA Updated日期是2014/12/18然后找到对应的插件版本是1.2.1，下载即可。下面是scala插件的离线下载地址。

scala插件离线下载地址：https://plugins.jetbrains.com/plugin/1347-scala
然后根据Update日期去找Intellij IDEA对应得scala插件，不同版本的IDEA对应的scala插件不一样，请务必下载对应的scala插件否则无法识别。

（4）离线插件下载完成后，将离线scala插件通过如下方式加入到IDEA中去：点击Install plugin from disk…,然后找到你scala插件的zip文件的本机磁盘位置，点ok即可

到这里，在Intellij IDEA中安装scala插件的步骤已经全部完成。接下来用IDEA来构建一个Maven工程，用来搭建spark开发环境。
3.Intellij IDEA通过Maven搭建spark环境
（1）打开IDEA新建一个maven项目，如下图：
注意：按照我步骤顺序即可。
注意：如果是第一次利用maven构建scala开发spark环境的话，这里面的会有一个选择scala SDK和Module SDK的步骤，这里路径选择你安装scala时候的路径和jdk的路径就可以了。

（2）填写GroupId和ArtifactId这里我就随便写了个名字，如下图，点Next。

（3）第三步很重要，首先是你的Intellij IDEA里有Maven，一般的新版本都会自带maven，而且maven的目录在IDEA安装路径下plugins下就能找到，然后再Maven home directory地址中填写maven相对应的路径，本文中的IDEA版本比较老，是自己下的Maven安装上的（不会的可以百度下，很简单，建议使用新的IDEA，不需要自己下载maven）。然后这里面的User settings file是你maven路径下conf里面的settings.xml文件，勾选上override即可，这里面的Local repository路径可以不用修改，默认就好，你也可以新建一个目录。点击Next。
注意：截图的时候忘了，把Local repository前面的override也勾选上，不然构建完会报错，至少我的是这样。

（4）填写自己的项目名，随意即可。点击finish。

（5）到这里整个流程已经结束，完成后会显示如下界面：
右上角的import需要点击一下即可。

（6）接下来在pom.xml文件中加入spark环境所需要的一些依赖包。以代码的方式给出，方便复制。
这里是我的pom文件代码，请各位自行按照自己的需要删减或添加依赖包。
//注意这里面的版本一定要对应好，我这里的spark版本是1.6.0对应的scala是2.10，因为我是通过spark-core_$scala.version是找spark依赖包的，前些日子有个同事按照这个去搭建，由于版本的不一样最后spark依赖包加载总是失败。请大家自行检查自己的版本参考技术A 建议你使用intellij idea，在spark目录下执行"sbt/sbt gen-idea"，会自动生成.idea项目，导入即可。本回答被提问者采纳

以上是关于如何安装spark&tensorflowonspark的主要内容，如果未能解决你的问题，请参考以下文章