Amazon EMR：为每个 EMR 实例设置唯一数量的映射器和缩减器

Posted 2023-04-17

技术标签:

【中文标题】Amazon EMR：为每个 EMR 实例设置唯一数量的映射器和缩减器【英文标题】：Amazon EMR: Set unique number of mappers and reducers per EMR instance 【发布时间】：2012-06-21 15:08:23 【问题描述】：

我正在运行一个包含 M 个核心实例和 N 个任务实例的 Amazon EMR 集群。

我的作业每天运行多次并且对时间很敏感，因此我保持 M 核心实例 24/7 不间断运行，这样我就不会在 S3 之间进行数据传输开销。

N 个任务节点正在根据需要动态启动和终止。

M个核心节点是c1.mediums，N个任务节点是m2.xlarge。

有没有办法为每个实例配置 mapred.tasktracker.map.tasks.maximum 和 mapred.tasktracker.reduce.tasks.maximum？

对于我想要的核心节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=1

对于我至少想要的任务节点： mapred.tasktracker.map.tasks.maximum=2 mapred.tasktracker.reduce.tasks.maximum=2

请注意，任务跟踪器也在核心节点上运行，因此我认为此配置需要基于每个实例，具体取决于实例大小。

这可能吗？如果是这样，我该如何设置这种类型的配置？

【问题讨论】：

【参考方案1】：

这里有一个很棒的博客 - 它可以为您提供答案。 http://blog.earlh.com/index.php/2013/05/modifying-the-number-of-mappers-or-reducers-on-a-running-emr-cluster/