如何详细获取 hdfs 使用报告

Posted

技术标签:

【中文标题】如何详细获取 hdfs 使用报告【英文标题】:How to get the hdfs usage report in details 【发布时间】:2016-06-22 17:57:10 【问题描述】:

我们得到了容量为 900TB 的 hdfs。随着存储的数据越来越多,很难跟踪有用的数据和可以删除的数据。 我想分析以下模式的 hdfs 使用情况,以便优化使用容量。

    什么是经常访问的数据。 数据长时间没有被触摸/访问(可能被删除) 用户的数据使用分布。 活跃用户。

【问题讨论】:

【参考方案1】:

您可以从以下位置获取该数据:

(1) HDFS 审核日志(每个用户/IP 的访问模式) (2) fsimage(每个文件的访问次数,未访问的数据)

(1) 您是否启用了 HDFS 审核日志?阅读更多here。

(2) 从 fsimage 开始读取 this - 有一个示例可以获取“长时间未触摸/访问数据”

您可能还需要考虑HAR 来归档数据(而不是删除) - 从而减少名称节点上的存储使用和宝贵的内存。

【讨论】:

以上是关于如何详细获取 hdfs 使用报告的主要内容,如果未能解决你的问题,请参考以下文章

如何使用API (针对MCN)从YouTube CMS帐户获取收入报告?

如何从贝宝捐赠中获取交易信息?

如何使用Java API读写HDFS

如何使用codeigniter从mysql中获取多个多维数组中的数据?

如何从 HDFS 获取和查看 oracle BLOB (Image) 数据到本地系统?

如何查看整个根 hdfs 磁盘使用情况? (hadoop dfs -du / 获取子文件夹)