使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名

Posted

技术标签:

【中文标题】使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名【英文标题】:Fetching all the csv filenames from HDFS directory using spark/scala 【发布时间】:2020-04-21 11:12:03 【问题描述】:

有人可以指导我如何使用 scala 从我的 HDFS 目录中只获取 .csv 文件。 我正在尝试从我的 hdfs 位置获取所有 csv 文件名并编写以下代码。

    var Fsys1 = FileSystem.get(sparksession.sparkContext.hadoopConfiguration)
    var FileNames = Fsys1 .listStatus(new  Path("hdfspath").filter(_.isFile).map(_.getPath.getName).toList

它给了我所有的文件名,但我只想获取 .csv 文件。

【问题讨论】:

.filter(_.toLowerCase.endsWith(".csv")) 【参考方案1】:

正如@pasha701 在 cmets 中提到的那样。您可以过滤以“.csv”结尾的文件

.filter(_.toLowerCase.endsWith(".csv"))

【讨论】:

以上是关于使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 Spark/Scala 在 HDFS 上编写/创建 zip 文件?

在 Spark/Scala 中写入 HDFS,读取 zip 文件

如何在 spark scala 中重命名 S3 文件而不是 HDFS

如何读取包含 JSON 文件的文件夹的目录:Spark Scala

Spark:使用 Spark Scala 从 Kafka 读取 Avro 消息

Spark,Scala在从文件读取后无法正确创建视图