将MR作业提交给具有不同ID的Hadoop集群

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了将MR作业提交给具有不同ID的Hadoop集群相关的知识,希望对你有一定的参考价值。

我们可以将MR作业提交给hadoop集群的最佳方式是什么?

Scenario:

开发人员有自己的id,例如dev-user1,dev-user2等

Hadoop集群具有各种组件的各种ID,例如用于HDFS的hdfs用户,用于YARN的纱线等。

这意味着dev-user1无法读取/写入HDFS,因为它是可以访问HDFS的hdfs id。

任何人都可以帮助我了解开发人员可以向hadoop集群提交作业的最佳做法是什么?我不想向任何人分享hadoop“特定”ID细节。

它在现实生活场景中如何运作。

答案

开发人员可以向hadoop集群提交作业的最佳实践?

取决于工作... yarn jar将用于MapReduce

这意味着dev-user1无法读取/写入HDFS,因为它是可以访问HDFS的hdfs id。

并非所有内容都归hdfs用户所有。您需要创建该用户拥有的/user/dev-user1 HDFS目录,以便用户拥有“私有”空间。您仍然可以在多个用户写入的HDFS上的任何其他位置创建目录。

只有你在HDFS上明确启用了权限才会检查权限...即使你这样做了,你仍然可以将两个用户放在同一个POSIX组中,或者使所有目录全局可写。

https://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HdfsPermissionsGuide.html

在生产级集群中,Hadoop由Kerberos凭据保护,ACL通过Apache Ranger或Sentry进行管理,这两者都允许细粒度的权限管理

以上是关于将MR作业提交给具有不同ID的Hadoop集群的主要内容,如果未能解决你的问题,请参考以下文章

Hadoop体系结构之 Mapreduce

如何使用新 API 以编程方式获取 Hadoop 集群中所有正在运行的作业?

Hadoop集群的JobHistoryServer详解(转载)

简单描述MapReduce(mr是什么?)

简单描述MapReduce(mr是什么?)

MR程序本地调试,提交到集群运行