idea_pyspark 环境配置

Posted LazyJoJo

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了idea_pyspark 环境配置相关的知识,希望对你有一定的参考价值。

1、配置好Hadoop和spark

2、配置好Pytho3.5

3、安装py4j

  pip3 install py4j

4、idea 中添加Python插件

file->setting->editor->plugins

右边搜索框中 搜索Python,下载插件

5、下载完后,重启软件,建立Python项目,导入pyspark的包文件

导入步骤:file->project Structure->modules->右边栏中点dependencies->点添加->将"spark/python" 添加进去

 

6、test:

from pyspark.sql import SparkSession
if __name__ == "__main__":
    spark = SparkSession \\
        .builder \\
        .master("local") \\
        .appName("PythonWordCount") \\
        .getOrCreate()
    data = spark.read.csv("/lab/data/2/02singleentry.csv")
    data.show(10)

    spark.stop()

 

7、目前观察不能读取本地的数据,只能读取HDFS上的数据

 

以上是关于idea_pyspark 环境配置的主要内容,如果未能解决你的问题,请参考以下文章

vscode 开发微信小程序环境配置

全栈编程系列SpringBoot整合Shiro(含KickoutSessionControlFilter并发在线人数控制以及不生效问题配置启动异常No SecurityManager...)(代码片段

VSCode自定义代码片段11——vue路由的配置

VSCode自定义代码片段11——vue路由的配置

VSCode自定义代码片段11——vue路由的配置

vscode配置c++环境竟然是有手就行 !¿?!