如何在python中为Hadoop Map Reduce作业编写组合器和分区器?我如何在Hadoop Job中调用它

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在python中为Hadoop Map Reduce作业编写组合器和分区器?我如何在Hadoop Job中调用它相关的知识,希望对你有一定的参考价值。

如何在python中编写组合器和分区器作业并使用Hadoop Streaming调用它。

答案

请看看Pydoop。我没有探讨过这个,但根据文档,

Pydoop Script使您可以在几行代码中使用mapper和reducer函数为Had​​oop编写简单的MapReduce程序。当Pydoop Script不够用时,您可以切换到更完整的Pydoop API,它提供了实现Python Partitioner,RecordReader和RecordWriter的能力。 Pydoop可能不是所有Hadoop用例的最佳API,但其独特的功能使其适用于特定场景,并且正在积极改进。

Here是基于Python的hadoop组合器的SO问题。

附加参考

Reference Link

GitHub Link

另外this link详细介绍了各种其他可用的hadoop-python框架。

另一答案

你可以使用Yelp的MRJob。它很简单,并且有很好的文档,而且我自己也使用它 - 使用与hadoop的Java库相同的接口。是的,它使用的是hadoop流媒体 - 性能可能就是这样。但是,遗憾的是,您仍然需要在Java上编写分区程序。

以上是关于如何在python中为Hadoop Map Reduce作业编写组合器和分区器?我如何在Hadoop Job中调用它的主要内容,如果未能解决你的问题,请参考以下文章

如何在 python 中为 plotly boxplot 添加标签?

python的map和reduce和Hadoop的MapReduce有啥关系

如何在hadoop中控制map的个数

如何使用Python为Hadoop编写一个简单的MapReduce程序

如何在hadoop中控制map的个数

如何在android map api V2中为标记设置动画?