Python应用实战案例-pyspark库从安装到实战保姆级讲解

Posted 文宇肃然

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python应用实战案例-pyspark库从安装到实战保姆级讲解相关的知识,希望对你有一定的参考价值。

01 pyspark简介及环境搭建

pyspark是python中的一个第三方库,相当于Apache Spark组件的python化版本(Spark当前支持Java Scala Python和R 4种编程语言接口),需要依赖py4j库(即python for java的缩略词),而恰恰是这个库实现了将python和java的互联,所以pyspark库虽然体积很大,大约226M,但实际上绝大部分都是spark中的原生jar包,占据了217M,体积占比高达96%。

由于Spark是基于Scala语言实现的大数据组件,而Scala语言又是运行在JVM虚拟机上的,所以Spark自然依赖JDK,截止目前为止JDK8依然可用,而且几乎是安装各大数据组件时的首选。所以搭建pyspark环境首先需要安装JDK8,而后这里介绍两种方式搭建pyspark运行环境:

1)pip install pyspark+任意pythonIDE

pyspark作为python的一个第三方库,自然可以通过pip包管理工具进行安装,所以仅需执行如下命令即可完成自动安装:

pip install pyspark

为了保证更快的下载速度,可以更改pip源为国内镜像,具体设置方式可参考历史文章:

以上是关于Python应用实战案例-pyspark库从安装到实战保姆级讲解的主要内容,如果未能解决你的问题,请参考以下文章

Python应用实战案例:Python编程环境配置(AnacondaJupyterGPU环境)

数据可视化应用核密度空间插值实战案例(附Python和R语言代码)

数据可视化应用Python学术绘图(附实战案例)

Python应用实战案例-Pythongeopandas包详解(附大量案例及代码)

如何将 python 库从主机共享到多个 docker 容器?

python应用实战案例:python如何实现异步爬虫?