Pyspark基础使用
Posted 人工智能笔记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Pyspark基础使用相关的知识,希望对你有一定的参考价值。
Spark 作为处理海量数据的高效手段,广泛应用在大数据处理 和 人工智能领域。
当前的人工智能算法依赖于大量数据的喂养,因此对海量数据的处理常常是算法工程师的日常工作,也是算法工程师的核心必备技能之一。
无论是 大数据工程师、BI工程师、搜索推荐算法工程师、NLP工程师、以及一切对于分布式计算的处理场景,都使用spark进行数据的 汇总、清洗、特征提取、算法预测、效果验证 来完成。
而随着python的普及,受到越来越多开发者的欢迎。并且我本人也更加推崇使用主流的编程语言、以及主流的框架,因为一种技术被更多的使用,就能够更方便的找到前任解决我们所遇到问题的方法。这也是我放弃Scala 选择python的原因之一。除此之外,使用主流的编程语言,并且精通,意味着我们能够更快地适应新的工作环境,以及精通钻研一门语言所带来的开发效率和代码质量的提高。
https://github.com/zhaoxin4data/jarvis/tree/master/notebook/pyspark
执行前的准备:
1)安装好 spark 、pyspark
2)配置好 环境变量
3)本地python路径 PYSPARK_DRIVER_PYTHON
4)打包本地python并上传到HDFS路径 remote_python
关于spark 和 pyspark 的安装网上已经有太多资料,这里直奔使用主题。
该shell脚本会将pyspark_job_src 里的文件打包,提供给集群的分布式计算任务。
我们可以在 pyspark_job_src 创建多个python模块,供main.py 调用。
main.py 文件给出了 一些常见的 spark操作。
涵盖了,数据读取、数据处理、数据清洗、数据保存的方法。
篇幅有限,就不逐行解读代码。
大家可以访问我的GitHub,代码的注释 和 变量的命名 都较为容易理解。
由于水平和时间有限,内容难免会有所不足 甚至错误之处,也希望大家帮忙指正。
期待更多人与我交流,让我们共同精进
以上是关于Pyspark基础使用的主要内容,如果未能解决你的问题,请参考以下文章
PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解
PySpark数据分析基础:pyspark.sql.SparkSession类方法详解及操作+代码展示
PySpark数据分析基础:pyspark.mllib.regression机器学习回归核心类详解+代码详解