如何从 apache pig 中的 part-r-0000 获取输出

Posted

技术标签:

【中文标题】如何从 apache pig 中的 part-r-0000 获取输出【英文标题】:how to get output from part-r-0000 in apache pig 【发布时间】:2014-06-10 10:21:01 【问题描述】:

我正在使用 pig 解析 pcap 文件。我在 part-r-0000 文件中得到输出。 它向我显示以下输出。

1101
1646
503
679
556
480
80
471

如何从该文件中获取实际输出? part-r-0000文件有什么用?

【问题讨论】:

“实际”输出是什么意思? part-r-00000 如您所说,是输出文件。你的意思是别的什么,比如你在代码中所做的打印,也许? 我正在执行的代码应该显示源、目标、时间戳等值。但不是那样,而是显示上面的输出。 那么,问题出在代码上。请您在问题中添加它吗? 我正在使用 github 的 'packetpig' repo。根据Horton works 上给出的代码,我正在通过命令行执行./pigrun.py -x local -r data/web.pcap -f pig/examples/binning.pig。由于我是初学者,我不知道如何生成人类可读格式的输出。代码请访问packetpig 【参考方案1】:

该文件只是存储在 HDFS 上的输出文件。如果您希望输出到其他地方,您可以使用 ">"

重定向输出

【讨论】:

【参考方案2】:

您可以使用 Store/Dump 在 pig 中获取输出。 part-r 文件是 reducer 的输出文件。

【讨论】:

以上是关于如何从 apache pig 中的 part-r-0000 获取输出的主要内容,如果未能解决你的问题,请参考以下文章

Apache Pig:使用 hadoop fs -text 加载显示良好的文件

使用 pig 生成最大数量

如何从 Apache Pig 中的文件中读取多个文件?

如何从 Pig 中的 Python UDF 打印?

如何使用 apache pig 递归加载文件

使用 Apache Pig 从文本文件中获取备用行