从 HDFS CSV 文件构建的 Spark Dataframe 中提取列名

Posted 2023-04-17

技术标签:

【中文标题】从 HDFS CSV 文件构建的 Spark Dataframe 中提取列名【英文标题】：Pulling Out of the Column Names from a Spark Dataframe built from a HDFS CSV File 【发布时间】：2018-01-21 08:19:24 【问题描述】：

我有一个通过从 HDFS 读取 csv 文件创建的 Spark Dataframe。

我现在有一个关于 READ 的架构，因为 csv 在不同的实例中可以有不同的列名，并且列数会因不同的 csv 文件而异。

我如何才能从架构 StructType 中仅提取“列名”作为字符串到单独的数组或 HashMap 中。

问候，桑吉布

【问题讨论】：

【参考方案1】：

如果你有一个数据框，你可以调用 API columns()，它将列名作为字符串数组返回。

DataFrame (Spark 1.6.3 JavaDoc) - Apache Spark

【讨论】：

@sanjeeb，如果它解决了你的问题，请接受这个答案。

以上是关于从 HDFS CSV 文件构建的 Spark Dataframe 中提取列名的主要内容，如果未能解决你的问题，请参考以下文章

将数据从 CSV 文件映射到 HDFS 上的 Hive 表时出错