从 pyspark 数据框中获取多个(100+)列的空计数、最小值和最大值的最佳方法

Posted

技术标签:

【中文标题】从 pyspark 数据框中获取多个(100+)列的空计数、最小值和最大值的最佳方法【英文标题】:Best way to get null counts, min and max values of multiple (100+) columns from a pyspark dataframe 【发布时间】:2019-12-12 21:12:43 【问题描述】:

假设我有一个列名列表,它们都存在于数据框中

Cols = ['A', 'B', 'C', 'D'],

我正在寻找一种快速获取表格/数据框的方法

     NA_counts min     max
A        5      0      100
B        10     0      120
C        8      1      99
D        2      0      500

TIA

【问题讨论】:

【参考方案1】:

您可以单独计算每个指标,然后像这样合并所有指标:

nulls_cols = [sum(when(col(c).isNull(), lit(1)).otherwise(lit(0))).alias(c) for c in cols]
max_cols = [max(col(c)).alias(c) for c in cols]
min_cols = [min(col(c)).alias(c) for c in cols]

nulls_df = df.select(lit("NA_counts").alias("count"), *nulls_cols)
max_df = df.select(lit("Max").alias("count"), *max_cols)
min_df = df.select(lit("Min").alias("count"), *min_cols)

nulls_df.unionAll(max_df).unionAll(min_df).show()

输出示例:

+---------+---+---+----+----+
|    count|  A|  B|   C|   D|
+---------+---+---+----+----+
|NA_counts|  1|  0|   3|   1|
|      Max|  9|  5|Test|2017|
|      Min|  1|  0|Test|2010|
+---------+---+---+----+----+

【讨论】:

以上是关于从 pyspark 数据框中获取多个(100+)列的空计数、最小值和最大值的最佳方法的主要内容,如果未能解决你的问题,请参考以下文章

如何从数据框中获取 1000 条记录并使用 PySpark 写入文件?

如何获取和比较pyspark中两个数据框中相似列的所有值的数据类型

使用 spark-xml 从 pyspark 数据框中选择嵌套列

PySpark - 如何根据列中的两个值从数据框中过滤出连续的行块

PySpark - 从列表中获取字符串位置

减去 Pandas 或 Pyspark 数据框中的连续列