在 Spark Dataframe 中选择一系列列[重复]

Posted

技术标签:

【中文标题】在 Spark Dataframe 中选择一系列列[重复]【英文标题】:Select a range of columns in Spark Dataframe [duplicate] 【发布时间】:2019-05-16 08:16:41 【问题描述】:

假设我有一个 Spark Dataframe df,我如何选择一系列列,例如从第 100 列到第 200 列?

【问题讨论】:

@PrasadKhode 这不是重复的。您提到的问题是指 Scala 而不是 Python。 试试selectslice @Old-School 虽然编程语言不同,但方法相同,请尝试那里给出的解决方案 【参考方案1】:

由于df.columns 返回一个list,您可以将其切片并传递给select

df.select(df.columns[99:200])

这将获取包含第 100 到第 200 列(含)的 DataFrame 的子集。

【讨论】:

以上是关于在 Spark Dataframe 中选择一系列列[重复]的主要内容,如果未能解决你的问题,请参考以下文章

如何通过基于名称而不是索引选择一系列列和行来对数据框进行切片?

如何获取一系列列作为集合?

比较两个序列列,并基于条件将元素添加到 Dataframe

从 Spark 中的 DataFrame 中过滤和选择数据

基于列索引的 Spark Dataframe 选择

如何从 Spark DataFrame 中选择稳定的行子集?