使用 map reduce 程序查找一年中每个月的最高温度

Posted

技术标签:

【中文标题】使用 map reduce 程序查找一年中每个月的最高温度【英文标题】:find the max temperature of each month in a year using map reduce program 【发布时间】:2016-01-07 18:39:42 【问题描述】:

我的代码对我来说似乎是正确的,但在 cmd 上它没有给出正确的输出,请任何人帮助我找出代码中的问题。运行正常但输出错误:

package test;

import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
//import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class temp 
    public static class Mymapper extends Mapper<Object, Text, IntWritable,Text> 

        public void map(Object key, Text value,Context context) throws IOException, InterruptedException

            int month=Integer.parseInt(value.toString().substring(16, 18));
            IntWritable mon=new IntWritable(month);
            String temp=value.toString().substring(26,30);
            String t=null;
            for(int i=0;i<temp.length();i++)
                if(temp.charAt(i)==',')
                        break;
                else
                    t=t+temp.charAt(i);
            
            Text data=new Text(value.toString().substring(21, 25)+t);
            context.write(mon, data);
        
    

    public static class Myreducer extends  Reducer<IntWritable,Text,IntWritable,IntWritable> 

        public void reduce(IntWritable key,Iterable<Text> values,Context context) throws IOException, InterruptedException
            String temp="";
            int max=0;
            for(Text t:values)
            
                temp=t.toString();
                if(temp.substring(0, 4)=="TMAX")
    if(Integer.parseInt(temp.substring(4,temp.length()))>max)
                        max=Integer.parseInt(temp.substring(4,temp.length()));
                    
                
            

            context.write(key,new IntWritable(max));
        

        

    public static void main(String[] args) throws Exception 
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "temp");
        job.setJarByClass(temp.class);
        job.setMapperClass(Mymapper.class);

        job.setReducerClass(Myreducer.class);
        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);

        

输入文件:

USC00300379,19000121,TMAX,-78,,,6, USC00300379,19000131,TMAX,-133,,,6, USC00300379,19000111,TMAX,127,,,6,

这段代码的输出是:

12 0 13 0 11 0

【问题讨论】:

这里:“19000121”:1900 是年,01 是月,21 是日。你怎么把“12”当成一天?好像有什么误会。如果您想要每天的最高温度,那么您的预期输出为:21 0、31、0 和 11 127(因为 127 > 0) 这个答案已经过测试。请查看***.com/a/34677353/5678086 【参考方案1】:

看起来您已经将索引移动了一个(应该是 substring(15, 17) 而不是 substring(16, 18)),但我无法根据输入文件剪断来弄清楚为什么(也许你错过了这里有什么?)

由于移位索引,您收到月份 12、13、11 而不是 01、01、01。由于移位索引“TMAX”未出现在字符串的开头,因此您收到 0 作为最高温度。

建议:

    您有逗号分隔的 csv 文件,所以不要使用子字符串。您可以使用 value.toString().split(",") 接收部分记录。 查看您需要哪些部件(日期和温度)。 使用子字符串方法从日期部分获取月份。 减速器中不需要 TMAX 部件。所以你只能产生 IntWitable, IntWritable (Month, Temperature) 作为映射器的输出。 5.去掉reducer中的TMAX检查(只使用温度IntWritable值)。

建议: 不要每次都在 mapper 和 reducer 中创建 Text 和 IntWritable 实例。您可以将其设为实例字段并使用 set 方法(它可以优化内存)

【讨论】:

我用 substring(15,17) 它给出了同样的错误输出@adushenin【参考方案2】:

让我们先记录:

USC00300379,19000121,TMAX,-78,,,6,

在这条记录中19000121

1900 - Year
01 - Month
21 - Day

所以,预期的输出应该是:

21 0 (Since -78 < 0)
31 0 (Since -133 < 0)
11 127 (Since 127 > 0)

为此,您需要对代码进行以下更改。

ma​​p() 方法

月份解析

变化:

int month=Integer.parseInt(value.toString().substring(16, 18));

收件人:

int month=Integer.parseInt(value.toString().substring(18,20));

字符串的初始化

变化:

String t=null;

收件人:

String t=""

reduce() 方法:

字符串比较

变化:

if(temp.substring(0, 4)=="TMAX")

收件人:

if(temp.substring(0, 4).equals("TMAX"))

通过这些更改,我得到以下输出:

11      127
21      0
31      0

【讨论】:

【参考方案3】:

以下代码将解决此问题。用下面的代码替换你的 Mymapper 和 Myreducer

public static class Mymapper extends Mapper<Object, Text, IntWritable,Text> 
    public void map(Object key, Text value,Context context) throws IOException, InterruptedException

        String line = value.toString();
        String[] elements = line.split(",");
        int month=Integer.parseInt(elements[1].substring(4,6));
        Text data=new Text(elements[3]);
        context.write(new IntWritable(month), data);

    


public static class Myreducer extends  Reducer<IntWritable,Text,IntWritable,IntWritable> 
    public void reduce(IntWritable key,Iterable<Text> values,Context context) throws IOException, InterruptedException
        int temp=0;
        int max=0;
        for(Text t:values)
        
            String tmp = t.toString().trim();
            if(!tmp.equals("")) 
                temp=Integer.parseInt(tmp);
                if (temp > max) 
                    max = temp;
                
            
        
        context.write(key,new IntWritable(max));
    

【讨论】:

以上是关于使用 map reduce 程序查找一年中每个月的最高温度的主要内容,如果未能解决你的问题,请参考以下文章

统计一年中每个月的记录

查询以列表形式返回一年中每个月的天数?

我有 8 年的日常数据。我想绘制一周中的每一天、一年中的每周和一年中的每个月的所有值。我怎么做?

您如何在 map/reduce 中实现排名和排序?

java获取每个月最后一天的日期

linux的周期计划任务在每个月的最后一天执行 该怎么写