大数据之Hadoop(MapReduce)：CombineTextInputFormat案例实操

Posted 2021-06-24 浊酒南街

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了大数据之Hadoop(MapReduce)：CombineTextInputFormat案例实操相关的知识，希望对你有一定的参考价值。

1.需求

（1）输入数据
准备4个小文件
（2）期望
期望一个切片处理4个文件

（1）不做任何处理，运行WordCount案例程序，观察切片个数为4。

（2）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为3。
（a）驱动类中添加代码如下：

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置4m
CombineTextInputFormat.setMaxInputSplitSize(job, 4194304);

（b）运行结果为3个切片。

number of splits：3

（3）在WordcountDriver中增加如下代码，运行程序，并观察运行的切片个数为1。
（a）驱动中添加代码如下：

// 如果不设置InputFormat，它默认用的是TextInputFormat.class
job.setInputFormatClass(CombineTextInputFormat.class);

//虚拟存储切片最大值设置20m
CombineTextInputFormat.setMaxInputSplitSize(job, 20971520);

（b）运行如果为1个切片。

number of splits：1

以上是关于大数据之Hadoop(MapReduce)：CombineTextInputFormat案例实操的主要内容，如果未能解决你的问题，请参考以下文章