如何计算 pyspark RDD 中的列数?

Posted

技术标签:

【中文标题】如何计算 pyspark RDD 中的列数?【英文标题】:How to count the number of columns in a pyspark RDD? 【发布时间】:2021-08-30 12:17:48 【问题描述】:

如何在不将其转换为 Dataframe 的情况下计算 pyspark RDD 中的列数?

为什么他们没有内置函数来计算列数?对于行,有 .count()

【问题讨论】:

可能是因为 RDD 不是面向列的对象,而是 Key/values ... 但是老师要求我们这样做 从column的定义开始。复杂类型呢?带有 dict 的元素也被视为列吗?但可以肯定的是,如果你的老师问它,那一定是可能的...... ???? 【参考方案1】:

一种方法是

len(rdd.take(1)[0])

【讨论】:

以上是关于如何计算 pyspark RDD 中的列数?的主要内容,如果未能解决你的问题,请参考以下文章

PySpark:将 RDD 转换为数据框中的列

遍历 pyspark 数据框中的列,而不为单个列创建不同的数据框

pyspark中的RDD到DataFrame(来自rdd的第一个元素的列)

有啥方法可以在 pyspark 数据框中找到包含数据的列数

如何更改pyspark中的列元数据?

如何计算 Spark SQL(Databricks)中表中的列数?