pyspark中dataframe的清理操作

Posted lee-yl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark中dataframe的清理操作相关的知识,希望对你有一定的参考价值。

1、交叉表(crosstab):

pandas中也有,常和pivot_table比较。

技术分享图片

查看家庭ID与评分的交叉表:

技术分享图片

2、处理缺失值:fillna

技术分享图片

withColumn:新增一列数据

cast : 用于将某种数据类型的表达式显式转换为另一种数据类型

技术分享图片

 将缺失值删除:dropna

技术分享图片

3、处理重复值

查看有没有重复值存在:distinct().count()

技术分享图片

将重复值去除:dropDuplicates()

技术分享图片

 

以上是关于pyspark中dataframe的清理操作的主要内容,如果未能解决你的问题,请参考以下文章

PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解

PySpark|比RDD更快的DataFrame

PySpark DataFrame基础操作

PySpark DataFrame 上的求和操作在类型正常时给出 TypeError

Pyspark - 从 DataFrame 列的操作创建新列给出错误“列不可迭代”

pyspark中的dataframe的观察操作