在 PySpark Dataframe 中计数零次出现

Posted

技术标签:

【中文标题】在 PySpark Dataframe 中计数零次出现【英文标题】:Count zero occurrences in PySpark Dataframe 【发布时间】:2020-11-14 20:35:23 【问题描述】:

如何计算每个PySpark Dataframe's 行中0s 的出现次数?

我想要这个结果,注意n0 列是逐行计数的:

+--------+-----+-----+----+-----+---+
|center  |var1 |var2 |var3|var4 |n0 |
+--------+-----+-----+----+-----+---+
|center_a|0    |1    |0   |0    |3  |
|center_b|1    |1    |2   |4    |0  |
|center_c|1    |0    |1   |0    |2  |
+--------+-----+-----+----+-----+---+ 

我试过这段代码,但没有成功。

x['n0'] = (x == 0).sum(axis=1)

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-63-8a95da0a1861> in <module>()
----> 1 (x == 0).sum(axis=1)

AttributeError: 'bool' object has no attribute 'sum'

【问题讨论】:

【参考方案1】:

逐行0 校验和求和:

from pyspark.sql import functions as F

df.withColumn("n0", sum(F.when(df[col] == 0, 1).otherwise(0) for col in df.columns)).show()
+--------+----+----+----+----+---+
|  center|var1|var2|var3|var4| n0|
+--------+----+----+----+----+---+
|center_a|   0|   1|   0|   0|  3|
|center_b|   1|   1|   2|   4|  0|
|center_c|   1|   0|   1|   0|  2|
+--------+----+----+----+----+---+

【讨论】:

以上是关于在 PySpark Dataframe 中计数零次出现的主要内容,如果未能解决你的问题,请参考以下文章

Pyspark:依靠 pyspark.sql.dataframe.DataFrame 需要很长时间

是否可以在 Pyspark 中对 DataFrame 进行子类化?

在 PySpark 的两个不同 pyspark.sql.dataframes 中的两列中创建一个 pyspark.sql.dataframe

如何在 jupyter 中像 pandas Dataframe 一样打印 Pyspark Dataframe

在pyspark中以分布式方式有效地生成大型DataFrame(没有pyspark.sql.Row)

PySpark,DataFrame 的顶部