pyspark中dataframe的清理操作
Posted lee-yl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyspark中dataframe的清理操作相关的知识,希望对你有一定的参考价值。
1、交叉表(crosstab):
pandas中也有,常和pivot_table比较。
查看家庭ID与评分的交叉表:
2、处理缺失值:fillna
withColumn:新增一列数据
cast : 用于将某种数据类型的表达式显式转换为另一种数据类型
将缺失值删除:dropna
3、处理重复值
查看有没有重复值存在:distinct().count()
将重复值去除:dropDuplicates()
以上是关于pyspark中dataframe的清理操作的主要内容,如果未能解决你的问题,请参考以下文章
PySpark数据分析基础:PySpark基础功能及DataFrame操作基础语法详解
PySpark DataFrame 上的求和操作在类型正常时给出 TypeError