spark 集群处理后转单机pyspark 或 pands 数据处理 的方法

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark 集群处理后转单机pyspark 或 pands 数据处理 的方法相关的知识,希望对你有一定的参考价值。


spark 环境下载

历史包列表:
https://archive.apache.org/dist/spark/

conda 环境

# pyspark 2.X 版本的python 必须是3.7 或者3.6 ,高的会报错。
conda create -n pyspark_247 python=3.7

版本不对可能会碰见如下报错:

File "/xxx/xxx/lib/python3.9/site-packages/pyspark/cloudpickle.py"

以上是关于spark 集群处理后转单机pyspark 或 pands 数据处理 的方法的主要内容,如果未能解决你的问题,请参考以下文章

Win7 单机Spark和PySpark安装

我如何让 pandas 使用 spark 集群

YARN 集群上的 PySpark 分布式处理

让spark榨干你的资源,数据分析从单机到集群

java及spark2.X连接mongodb3.X单机或集群的方法(带认证及不带认证)

PySpark - Spark 集群 EC2 - 无法保存到 S3