HDFS中的Pyspark重命名文件

Posted

技术标签:

【中文标题】HDFS中的Pyspark重命名文件【英文标题】:Pyspark renaming file in HDFS 【发布时间】:2020-05-08 08:47:57 【问题描述】:

我正在使用 spark 2.3.1 并想在 pyspark 程序中重命名 HDFS 文件。 我正在关注这个答案[https://***.com/a/58172249/12927963] (Pyspark)

对于这一行

fs.rename(Path(hdfs_dir+''+file_name),Path(hdfs_dir+''+new_filename))

我收到以下错误。

NameError:名称“路径”未定义

如果我从行中删除 Path 关键字

我收到以下错误。

Py4JError:调用 o562.rename 时出错。痕迹: py4j.Py4JException: 方法重命名([class java.lang.String, class java.lang.String]) 不存在

那么如何解决这个问题呢?

【问题讨论】:

【参考方案1】:

定义路径为

Path = sc._gateway.jvm.org.apache.hadoop.fs.Path

【讨论】:

以上是关于HDFS中的Pyspark重命名文件的主要内容,如果未能解决你的问题,请参考以下文章

HDFS 原子重命名文件系统依赖

在 PySpark 中将数据帧写入 CSV 后重命名文件 [重复]

使用别名重命名 pyspark 列

并行使用 scala Spark 重命名 HDFS 文件时的序列化问题

使用 Pyspark 动态重命名数据框列

重命名 Azure Blob 存储中的 csv 文件