如何从 apache pig 中的 part-r-0000 获取输出
Posted
技术标签:
【中文标题】如何从 apache pig 中的 part-r-0000 获取输出【英文标题】:how to get output from part-r-0000 in apache pig 【发布时间】:2014-06-10 10:21:01 【问题描述】:我正在使用 pig 解析 pcap 文件。我在 part-r-0000 文件中得到输出。 它向我显示以下输出。
1101
1646
503
679
556
480
80
471
如何从该文件中获取实际输出? part-r-0000文件有什么用?
【问题讨论】:
“实际”输出是什么意思?part-r-00000
如您所说,是输出文件。你的意思是别的什么,比如你在代码中所做的打印,也许?
我正在执行的代码应该显示源、目标、时间戳等值。但不是那样,而是显示上面的输出。
那么,问题出在代码上。请您在问题中添加它吗?
我正在使用 github 的 'packetpig' repo。根据Horton works 上给出的代码,我正在通过命令行执行./pigrun.py -x local -r data/web.pcap -f pig/examples/binning.pig
。由于我是初学者,我不知道如何生成人类可读格式的输出。代码请访问packetpig
【参考方案1】:
该文件只是存储在 HDFS 上的输出文件。如果您希望输出到其他地方,您可以使用 ">"
重定向输出【讨论】:
【参考方案2】:您可以使用 Store/Dump 在 pig 中获取输出。 part-r 文件是 reducer 的输出文件。
【讨论】:
以上是关于如何从 apache pig 中的 part-r-0000 获取输出的主要内容,如果未能解决你的问题,请参考以下文章