计算最终地图中的总行数减少hadoop中的输出

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了计算最终地图中的总行数减少hadoop中的输出相关的知识,希望对你有一定的参考价值。

目前我的num reduce任务设置为job.setNumReduceTasks(100);

所以我的最终输出目录在S3中,如下所示

/output/part-r-00000.gz
/output/part-r-00001.gz
... etc

为了计算我必须手动下载和解压缩所有文件的所有行,并通过每个文件来计算总行数。

在hadoop上下文中是否存在总线度量存储?

答案

Map Reduce应用程序日志存储map和reduce任务的计数器。对于所有减速器,如果您查看作业日志(计数器准确),“减少输出记录”之类的东西应该为您提供所需的信息。然而,这是HDP平台,其中RM UI具有作业计数器部分中的所有信息。

以上是关于计算最终地图中的总行数减少hadoop中的输出的主要内容,如果未能解决你的问题,请参考以下文章

将列值除以 impala 中的总行数

我如何使用Python API Pydoop得到Hadoop集群中的实际数据(地图后减少)?

计算每天 Ms-Sql 总行中的最大连续行

Oracle如何计算插入plsql块中的总行数

在 data.table 计算中使用选择中的总行数

如何使用 displot 在 python 中制作 seaborn 图,在其中我们计算一个字段中的唯一值而不是总行数?