自定义分区错误

Posted

技术标签:

【中文标题】自定义分区错误【英文标题】:Custom Partitioner Error 【发布时间】:2013-03-30 06:16:23 【问题描述】:

我正在编写自己的自定义 Partitioner(Old Api) 下面是我扩展 Partitioner 类的代码:

public static class WordPairPartitioner extends Partitioner<WordPair,IntWritable> 

   @Override
   public int getPartition(WordPair wordPair, IntWritable intWritable, int numPartitions) 
        return wordPair.getWord().hashCode() % numPartitions;
    

设置 JobConf:

conf.setPartitionerClass(WordPairPartitioner.class);

WordPair 类包含: 私人文字; 私有文本邻居;

问题: 1. 我收到错误:“实际参数类 (WordPairPartitioner) 无法转换为类 (?extends Partitioner)。 2. 这是编写自定义分区器的正确方法还是我还需要覆盖其他一些功能?

【问题讨论】:

【参考方案1】:

我相信您正在混淆旧 API(来自 org.apache.hadoop.mapred.* 的类)和新 API(来自 org.apache.hadoop.mapreduce.* 的类)

使用旧 API,您可以执行以下操作:

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.Partitioner;
public static class WordPairPartitioner implements Partitioner<WordPair,IntWritable> 

   @Override
   public int getPartition(WordPair wordPair, IntWritable intWritable, int numPartitions) 
        return wordPair.getWord().hashCode() % numPartitions;
    


   @Override
   public void configure(JobConf arg0) 

   

【讨论】:

谢谢你!我不知道我怎么忘了修改标题..感谢具体的回答...我混合了新旧 api's ..:)【参考方案2】:

除了 Amar 的回答之外,您还应该处理 hashCode 通过位掩码返回负数的可能性:

@Override
public int getPartition(WordPair wordPair, IntWritable intWritable, int numPartitions) 
    return (wordPair.getWord().hashCode() % numPartitions) & 0x7FFFFFFF;

【讨论】:

谢谢克里斯...我一定会处理好这个的。

以上是关于自定义分区错误的主要内容,如果未能解决你的问题,请参考以下文章

spark自定义分区器实现

spark自定义分区器

Arduino ESP8266自定义配置分区表

Java-API+Kafka实现自定义分区

如果在 Hadoop Map Reduce 中定义了自定义分区器,默认哈希分区器是不是仍然有效?

Hadoop自定义分区Partitioner