如何详细获取 hdfs 使用报告
Posted
技术标签:
【中文标题】如何详细获取 hdfs 使用报告【英文标题】:How to get the hdfs usage report in details 【发布时间】:2016-06-22 17:57:10 【问题描述】:我们得到了容量为 900TB 的 hdfs。随着存储的数据越来越多,很难跟踪有用的数据和可以删除的数据。 我想分析以下模式的 hdfs 使用情况,以便优化使用容量。
-
什么是经常访问的数据。
数据长时间没有被触摸/访问(可能被删除)
用户的数据使用分布。
活跃用户。
【问题讨论】:
【参考方案1】:您可以从以下位置获取该数据:
(1) HDFS 审核日志(每个用户/IP 的访问模式) (2) fsimage(每个文件的访问次数,未访问的数据)(1) 您是否启用了 HDFS 审核日志?阅读更多here。
(2) 从 fsimage 开始读取 this - 有一个示例可以获取“长时间未触摸/访问数据”
您可能还需要考虑HAR 来归档数据(而不是删除) - 从而减少名称节点上的存储使用和宝贵的内存。
【讨论】:
以上是关于如何详细获取 hdfs 使用报告的主要内容,如果未能解决你的问题,请参考以下文章
如何使用API (针对MCN)从YouTube CMS帐户获取收入报告?
如何使用codeigniter从mysql中获取多个多维数组中的数据?