阿帕奇猪程序

Posted

技术标签:

【中文标题】阿帕奇猪程序【英文标题】:Apache pig program 【发布时间】:2016-11-05 19:22:25 【问题描述】:

需要帮助编写用于计算单词数的猪脚本

包含以下文本的文件

What|is|Hadoop
History|of|Hadoop
How|Hadoop|name|was|given
Problems|with|Traditional|Large-Scale|Systems|and|Need|for|Hadoop
Understanding|Hadoop|Architecture
Fundamental|of|HDFS|(Blocks,|Name|Node,|Data|Node,|Secondary|Name|Node)
Rack|Awareness
Read/Write|from|HDFS
HDFS|Federation|and|High|Availability

【问题讨论】:

【参考方案1】:

将数据加载到字符数组中。替换“|”带空格,即 ' ' 并标记将为您提供单词的行,然后对单词进行分组和计数

A = LOAD '/user/hadoop/data.txt' AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(TOKENIZE(REPLACE(line,'\\|',' ')));
C = GROUP B BY $0;
D = FOREACH C GENERATE group, COUNT(B);
DUMP D;

输出

【讨论】:

从上面的代码输出我得到单个字母。我想显示单词然后计数。输出如下所示: (W) (h) (a) (t) (|) (i) (s) (|) (H) (a) (d) (o) (o) (p) ...我想以以下方式显示输出(什么),(hadoop)..你能帮忙

以上是关于阿帕奇猪程序的主要内容,如果未能解决你的问题,请参考以下文章

阿帕奇猪。获取一条特定记录

JMS 队列拆分。企业集成。阿帕奇骆驼

【PHP】如何配置阿帕奇汤姆猫服务器?【急】

阿帕奇脉冲星无限保留

IBM AIX - 阿帕奇卡夫卡

阿帕奇拼花和箭头之间的区别