Hadoop中split数量和reader读取原则

Posted qincan4q

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hadoop中split数量和reader读取原则相关的知识,希望对你有一定的参考价值。

画一个简单的hadoop执行图

技术分享图片

这里我以单词计数为例,在WCapp(在上篇博文《split数量计算法则》有源码)中设置最小切片数值和最大切片数值,把最大切片数值设置成13,即13个字节

技术分享图片

 

要计数的数据

技术分享图片

 

 

这里有个问题我们把切片值的设的很小,第一个切片读到的内容:hello world t,那么一个切片装不了一行,数据被切断,那么reader是怎么读的呢?

我们这里还是在jobsubmitter类中的writeSplits中打断点Debug运行程序

技术分享图片

step over 到  maps = this.writeNewSplits(job, jobSubmitDir);这一行,然后step into进入

技术分享图片

再进入到input.getSplits(job)中

技术分享图片

 

我们可以看到minSize=1,maxSize = 13,这是我们刚才设置最大切块大小的值。(至于这些方法怎么得到这些值的在上一篇文章有讲过)

下面就是一大堆源码,判断是否能切成split(一些压缩是不能切),这些就不说了,有兴趣的自己试验研究。

直接在方法底打断点

 技术分享图片

可以看到切片数量有四个,我们有三行数据,每行数据量都大于切片值,有四个切片也说的通。在确定每个切片的内容

技术分享图片

可以看见有0~3共四个切片,第一个切片行偏移量为0,有13个字节,其他的也以此类推,只有最后一个切片只有10个字节的数据。

一个切片对应一个map任务,那么第一个切片他的map任务切到数据应该是 hello world t

那么我们直接就在自己写的WCmapper中打一个断点,程序运行到这里查看value中的值是否是hello world t

技术分享图片

我们可以看到读到值是完整的一行,而不是hello world t

这才合理嘛。如何是按切片值来读,那么很大可以读取到不完整的数据,我们计算的结果也会是错误的。

这里有个很重要的类Recordreader,也就是最上面图上,inputformat到map中间有一个reader,你切片可以这样定义,但是reader要去读数据,他会首先判断读取的位置是不是行首,若是,则会一直读到回车换行;若不是行首,它会从下一行开始读。这就是为什么我们第二个切片内容会是一个完整的行内容,而不是从第一行的 om 开始读。

所以我们虽然有四个切片,但是我们只有前三个split有数据,最后一个split是空的,因为我们只有三行数据,依照reader的读取数据法则,到最后一个split的时候我们已近没有数据可读了。

这里我们可能会问,split和reader这到底听谁的?或者他们俩的功能感觉差不多?

  假设split的大小是128M,我们读了n行数据,在第n行读了一半,如果不读剩下的,会丢数据,这里可能会说,下一个切片把数据读走再分析,但是在并发情况下,切片很大可能在不同节点上运行的,怎么把这两个数据对接在一起再分析。所以这时候就需要reader了,就算我们split值满了,我们还是要把这行读完。(reader是一行一行的把数据发给mapper的)

切片是定义大方向的,而这个reader是处理细节,让你不丢失数据,或者数据不错乱。

 

 

 

 

 

 

 

 

  

以上是关于Hadoop中split数量和reader读取原则的主要内容,如果未能解决你的问题,请参考以下文章

InputFormat的数据划分Split调度数据读取

Hadoop TextInputFormat源码分析

Hadoop三句话告诉你 mapreduce 中MAP进程的数量怎么控制?

从 golang 中的缓冲读取器读取特定数量的字节

mapreduce 分区和分组的区别

7.3 MapReduce工作流程