使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名
Posted
技术标签:
【中文标题】使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名【英文标题】:Fetching all the csv filenames from HDFS directory using spark/scala 【发布时间】:2020-04-21 11:12:03 【问题描述】:有人可以指导我如何使用 scala 从我的 HDFS 目录中只获取 .csv 文件。 我正在尝试从我的 hdfs 位置获取所有 csv 文件名并编写以下代码。
var Fsys1 = FileSystem.get(sparksession.sparkContext.hadoopConfiguration)
var FileNames = Fsys1 .listStatus(new Path("hdfspath").filter(_.isFile).map(_.getPath.getName).toList
它给了我所有的文件名,但我只想获取 .csv 文件。
【问题讨论】:
.filter(_.toLowerCase.endsWith(".csv")) 【参考方案1】:正如@pasha701 在 cmets 中提到的那样。您可以过滤以“.csv”结尾的文件
.filter(_.toLowerCase.endsWith(".csv"))
【讨论】:
以上是关于使用 spark/scala 从 HDFS 目录中获取所有 csv 文件名的主要内容,如果未能解决你的问题,请参考以下文章
如何使用 Spark/Scala 在 HDFS 上编写/创建 zip 文件?
在 Spark/Scala 中写入 HDFS,读取 zip 文件
如何在 spark scala 中重命名 S3 文件而不是 HDFS
如何读取包含 JSON 文件的文件夹的目录:Spark Scala