大数据之Hadoop(MapReduce):FileInputFormat实现类

Posted 浊酒南街

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据之Hadoop(MapReduce):FileInputFormat实现类相关的知识,希望对你有一定的参考价值。

1.FileInputFormat的实现类

FileInputFormat常见的接口实现类包括:TextInputformat,KeyValueTextInputFormat,NLineInputFormat,CombineTextInputFormat和自定义的InputFormat等;

2.TextInputFormat

TextInputFormat时默认的FileInputFormat实现类。按行读取每条记录。键是存储该行在整个文件的起始字节偏移量,LongWritable类型。值是这行的内容,不包括任何终止符(换行符和回车符),Text类型。

2.1TextInputFormat实例

在这里插入图片描述

3.KeyValueTextInputFormat

每一行均为一条记录,被分割符分割为key,value.可以通过在驱动类中设置conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATTOR,"\\t");来设定分隔符。默认分隔符是tab(\\t)。

3.1TextInputFormat实例

在这里插入图片描述

4.NLineInputFormat

使用NLineInputFormat,代表每个map进程处理的InputSplit不再按Block块去划分,而是按NLineInputFormat指定的行数来划分,即输入文件的总行数/N=切片数,如果不整除,切片数=商+1。

4.1NLineInputFormat

在这里插入图片描述

以上是关于大数据之Hadoop(MapReduce):FileInputFormat实现类的主要内容,如果未能解决你的问题,请参考以下文章

大数据之Hadoop(MapReduce): MapReduce概述

大数据之Hadoop(MapReduce):MapReduce核心思想

大数据之Hadoop(MapReduce):Hadoop企业优化

大数据技术之Hadoop(MapReduce)概述序列化

大数据技术之Hadoop(MapReduce)概述序列化

大数据之Hadoop(MapReduce):MapReduce编程规范