如何计算 pyspark RDD 中的列数?
Posted
技术标签:
【中文标题】如何计算 pyspark RDD 中的列数?【英文标题】:How to count the number of columns in a pyspark RDD? 【发布时间】:2021-08-30 12:17:48 【问题描述】:如何在不将其转换为 Dataframe 的情况下计算 pyspark RDD 中的列数?
为什么他们没有内置函数来计算列数?对于行,有 .count()。
【问题讨论】:
可能是因为 RDD 不是面向列的对象,而是 Key/values ... 但是老师要求我们这样做 从column的定义开始。复杂类型呢?带有 dict 的元素也被视为列吗?但可以肯定的是,如果你的老师问它,那一定是可能的...... ???? 【参考方案1】:一种方法是
len(rdd.take(1)[0])
【讨论】:
以上是关于如何计算 pyspark RDD 中的列数?的主要内容,如果未能解决你的问题,请参考以下文章
遍历 pyspark 数据框中的列,而不为单个列创建不同的数据框