HDFS审计日志格式及说明

Posted

技术标签:

【中文标题】HDFS审计日志格式及说明【英文标题】:HDFS Audit Logs Format and explanation 【发布时间】:2017-11-15 22:41:52 【问题描述】:

我注意到大多数博客都在讨论如何设置 HDFS 审计日志。 但是有没有来源可以识别每个操作/ cmd 代表什么?

我在 Hadoop HowToConfigure wiki 中找到了下表:

但我不知道的是,在所有操作中,它们代表什么。

例如我试图通过读/写操作对操作进行分类,但似乎“开放”是读/写的通用命令,其余的更像 DDL 和访问控制操作。

我知道在 Cloudera 或 HDP 等不同的 Hadoop 发行版中,它们有自己的方式来告知审计日志,但默认操作代表什么?例如create - 可能意味着创建文件/mkdirs 可能意味着 mkdir 用于 hive 表/hive 分区。

最重要的是有没有办法区分读/写操作?

【问题讨论】:

【参考方案1】:

如果您想到大多数典型的 Hadoop 作业(Pig、Hive、MR、SQOOP、Spark),您很少会覆盖数据,因此 create 意味着写入,而 open 意味着读取。如果您要覆盖数据,您实际上会删除它,然后重新创建它。

要区分执行操作的服务,您还需要查看其他来源(Hive 审计日志、YARN RM 审计日志)或从用户和目录推断服务(/usr/hive/warehouse/* 可能是蜂巢查询)。

覆盖/附加引用:

How to force STORE (overwrite) to HDFS in Pig?

How does Sqoop append command will work in hadoop

Hive 审核日志:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-AuditLogs

【讨论】:

以上是关于HDFS审计日志格式及说明的主要内容,如果未能解决你的问题,请参考以下文章

第十三章 日志管理及安全

日志审计功能实现

日志审计功能实现

日志审计功能实现

日志审计功能实现

mysqlbinlog 参数及用法说明