如何查看 hdfs 目录并将到达 hdfs 的最新文件复制到本地?

Posted

技术标签:

【中文标题】如何查看 hdfs 目录并将到达 hdfs 的最新文件复制到本地?【英文标题】:How to watch an hdfs directory and copy the latest file that arrives in hdfs to local? 【发布时间】:2019-08-26 06:10:10 【问题描述】:

我想在bash/python 中编写一个脚本,以便脚本复制到达hdfs 目录的最新文件。我知道我可以在本地使用inotify,但是如何在hdfs? 中实现它 你能分享一下它的示例代码吗?当我在谷歌搜索它时,它给了我很长的代码。除了inotify(如果它太复杂的话)还有其他更简单的方法

【问题讨论】:

最新到达 与最近写入的文件一样吗? 是的,最近的 不要编辑要回答的问题。贴吧。 不是答案,我在本地建议了inotify的代码! 【参考方案1】:

不雅的hack:

使用 FUSE 挂载 hdfs,然后定期使用find <mountpoint> -cmin n 获取最近 n 分钟内创建的文件列表。

然后使用find <mountpoint> -anewer对其进行排序。

【讨论】:

以上是关于如何查看 hdfs 目录并将到达 hdfs 的最新文件复制到本地?的主要内容,如果未能解决你的问题,请参考以下文章

如何把hdfs上的多个目录下的文件合并为一个文件

hdfs怎么查看目录路径

pyspark 遍历 hdfs 目录并将数据加载到多个表中

如何将hdfs里某一目录下的所有文件的文件名读取出来

如何使用 Flume 在源上执行预处理并将真实文件名保留在 hdfs 接收器中

5.HDFS 操作命令