PyCharm+Eclipse共用Anaconda的数据科学环境

Posted Mr.Zhao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PyCharm+Eclipse共用Anaconda的数据科学环境相关的知识,希望对你有一定的参考价值。

1.安装anaconda2

  安装好之后,本地python环境就采用anaconda自带的python2.7的环境。

2.安装py4j

  在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。

  安装命令:pip install py4j

  如果不安装py4j可能出现的问题?

     答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误。

     

3.配置环境变量

  配置PyCharm的环境变量主要配置两个变量一个是SPARK_HOME,另外一个是PYTHONPATH。

(1).先打开Run Configurations

(创建一个项目,项目或python文件的左上角有该选项)
  

(2).编辑Environment variables

    
或者按下面的方式展开

菜单:File-->Settings (图来源于互联网~这里我用的是python2)

    

(3).在Environment variables下增加spark和python的环境

  增加SPARK_HOME目录与PYTHONPATH目录。

  - SPARK_HOME:Spark安装目录

  - PYTHONPATH:Spark安装目录下的Python目录

    

4.复制pyspark的包

编写Spark程序,复制pyspark的包,增加代码显示功能

为了让我们在PyCharm编写Spark程序时有代码提示和补全功能,需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包,叫做pyspark

pyspark包

Python导入第三方的包也很容易,只需要把相应的模块导入到指定的文件夹就可以了。
windows中将pyspark拷贝到Python的site-packages目录下(这里使用的是anaconda)

 

5.测试代码

import sys
from operator import add

from pyspark import SparkContext

logFile = "D:\\\\BigData\\\\Workspace\\\\PycharmProjects\\\\MachineLearning1\\\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: \'a\' in s).count()
numBs = logData.filter(lambda s: \'b\' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

 


以上是关于PyCharm+Eclipse共用Anaconda的数据科学环境的主要内容,如果未能解决你的问题,请参考以下文章

anaconda使用jupyter 多个内核共用 添加自动补全插件

anaconda使用jupyter 多个内核共用 添加自动补全插件

TensorFlow的环境配置与安装以及在Pycharm的使用

pycharm链接anaconda接口教程

pycharm+anaconda配置

anaconda和pycharm的区别是啥?