Pyspark基础使用

Posted 人工智能笔记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pyspark基础使用相关的知识,希望对你有一定的参考价值。


Spark 作为处理海量数据的高效手段,广泛应用在大数据处理 和 人工智能领域。

当前的人工智能算法依赖于大量数据的喂养,因此对海量数据的处理常常是算法工程师的日常工作,也是算法工程师的核心必备技能之一。

无论是 大数据工程师、BI工程师、搜索推荐算法工程师、NLP工程师、以及一切对于分布式计算的处理场景,都使用spark进行数据的 汇总、清洗、特征提取、算法预测、效果验证 来完成。

而随着python的普及,受到越来越多开发者的欢迎。并且我本人也更加推崇使用主流的编程语言、以及主流的框架,因为一种技术被更多的使用,就能够更方便的找到前任解决我们所遇到问题的方法。这也是我放弃Scala 选择python的原因之一。除此之外,使用主流的编程语言,并且精通,意味着我们能够更快地适应新的工作环境,以及精通钻研一门语言所带来的开发效率和代码质量的提高。


https://github.com/zhaoxin4data/jarvis/tree/master/notebook/pyspark


执行前的准备:

1)安装好 spark 、pyspark

2)配置好 环境变量

3)本地python路径 PYSPARK_DRIVER_PYTHON

4)打包本地python并上传到HDFS路径 remote_python


关于spark 和 pyspark 的安装网上已经有太多资料,这里直奔使用主题。

该shell脚本会将pyspark_job_src 里的文件打包,提供给集群的分布式计算任务。

我们可以在 pyspark_job_src 创建多个python模块,供main.py 调用。


main.py 文件给出了 一些常见的 spark操作。

涵盖了,数据读取、数据处理、数据清洗、数据保存的方法。

篇幅有限,就不逐行解读代码。

大家可以访问我的GitHub,代码的注释 和 变量的命名 都较为容易理解。


由于水平和时间有限,内容难免会有所不足 甚至错误之处,也希望大家帮忙指正。

期待更多人与我交流,让我们共同精进

以上是关于Pyspark基础使用的主要内容,如果未能解决你的问题,请参考以下文章

PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解

PySpark数据分析基础:pyspark.sql.SparkSession类方法详解及操作+代码展示

PySpark DataFrame基础操作

PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解+代码详解

PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解+代码详解

Pyspark常用数据分析基础操作