如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是不是仍然有效?

Posted

技术标签:

【中文标题】如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是不是仍然有效?【英文标题】:Does the default hash partitioner still work if a custom partitioner is defined in Hadoop Map Reduce?如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是否仍然有效? 【发布时间】:2015-11-24 20:09:23 【问题描述】:

由于我是hadoop新手,我尝试了http://www.tutorialspoint.com/map_reduce/map_reduce_partitioner.htm的示例代码,我发现该程序使用了3个基于年龄组的不同分区,并且还使用了3个reducer,这是意料之中的。但是在 reducer 代码中(这里的性别是男性/女性的关键)我仍然得到,我假设 这个值列表 创建是由哈希分区器完成的。但是正如我定义的 getPartitions() ,这个列表是谁创建的?

【问题讨论】:

【参考方案1】:

在上面的示例代码中,我们在运行方法中有以下驱动程序代码--

  Configuration conf = getConf();

  Job job = new Job(conf, "topsal");
  job.setJarByClass(PartitionerExample.class);

  FileInputFormat.setInputPaths(job, new Path(arg[0]));
  FileOutputFormat.setOutputPath(job,new Path(arg[1]));

  job.setMapperClass(MapClass.class);

  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(Text.class);

  //set partitioner statement

  job.setPartitionerClass(CaderPartitioner.class);
  job.setReducerClass(ReduceClass.class);
  job.setNumReduceTasks(3);
  job.setInputFormatClass(TextInputFormat.class);

  job.setOutputFormatClass(TextOutputFormat.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(Text.class);

  System.exit(job.waitForCompletion(true)? 0 : 1);
  return 0;

在这里您可以看到它设置 CaderPartitioner 类作为上述 MR 的分区器。根据 Map Reduce 规范,如果我们的程序没有设置任何自定义分区器,那么只有在这种情况下,身份分区器才会出现。

所以在上述场景中,CaderPartitioner 将发生并为上述 MR 进行分区。由于它有 3 个条件,它将输入键分成 3 个不同的组,并将这些单独的组发送到不同的减速器,减速器将相应地发生。

希望这会有所帮助。

【讨论】:

【参考方案2】:

getPartition()方法简单说明

如果您的作业有 3 个 reducer,它们也由整数索引:0、1 和 2。

getPartition() 方法的目的是将 map 输出的每个 (key, value) 对作为参数,并决定该对是否应该转到 reducers 0、1 或 2。这就是 getPartition() 方法的原因返回类型是 int

因此(在被 getPartition() 分析后)影响到 Reducer 2 的所有映射输出都将写入同一个分区,索引也为 2。该分区将位于映射器内部,等待减速器 2拿来。

你问谁创建了这个分区?根据我的发现,这是一个名为MapFileOutputFormat 的类,在一个名为getEntry() 的方法中。顾名思义,可能是一个负责管理地图输出数据的类。

HashPartitioner 是默认分区器,仅在您没有为作业定义任何分区器时使用。它仅基于 (key,value) 对的键的哈希码,因此具有相同键(即相同哈希码)的所有对最终都在同一个分区器中,这是 MapReduce 中的默认行为。

在你的教程中

您在教程中引用的代码使用自定义分区器,其getPartition() 方法的实现将年龄组与某些分区器相关联。 (20岁以下进入减速机0,20-30岁进入减速机1等......)。

这个自定义分区器 (CaderPatitioner) 是 MapReduce 作业的分区器,因为它是使用 job.setPartitionerClass() 设置的。作业中只有一个分区器,因此 HashPartitioner 从未用于此作业,因此在您的情况下它绝对没有任何作用。

所以回答你的问题,如果我理解得很好,CaderPatitioner 负责决定如何将映射输出分成多个分区,然后这些分区将在单独的 reducer 中结束。

【讨论】:

以上是关于如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是不是仍然有效?的主要内容,如果未能解决你的问题,请参考以下文章

在python中为Hadoop Map Reduce创建自定义可写键/值类型?

hadoop 分片与分块,map task和reduce task的理解

hadoop中map和reduce的数量设置问题

hadoop mapreduce 进程都有哪些

hadoop第五课:java开发Map/Reduce

hadoop 多文件夹输入,map到reduce怎样排序