：PySpark库

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了：PySpark库相关的知识，希望对你有一定的参考价值。

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。下面就带大家来学习今天的内容！

往期内容：

一、框架 VS 类库

我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务我们现在说的PySpark, 指的是Python的运行类库, 是可以在Python代码中:import pyspark

PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行.

下图是PySpark类库和标准Spark框架的简单对比：

Anaconda是Python语言的一个发行版.

内置了非常多的数据科学相关的Python类库, 同时可以提供虚拟环境来供不同的程序使用.

本次课程基于Anaconda3来获得Python运行环境.

Anaconda的安装参考<<spark部署文档.doc>>

PySpark是Python标准类库, 可以通过Python自带的pip程序进行安装或者Anaconda的库安装(conda)，

在合适的虚拟环境下(课程使用pyspark这个虚拟环境), 执行如下命令即可安装:

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple或者conda install pyspark，推荐使用pip。

以上是关于：PySpark库的主要内容，如果未能解决你的问题，请参考以下文章