阿帕奇猪程序
Posted
技术标签:
【中文标题】阿帕奇猪程序【英文标题】:Apache pig program 【发布时间】:2016-11-05 19:22:25 【问题描述】:需要帮助编写用于计算单词数的猪脚本
包含以下文本的文件
What|is|Hadoop
History|of|Hadoop
How|Hadoop|name|was|given
Problems|with|Traditional|Large-Scale|Systems|and|Need|for|Hadoop
Understanding|Hadoop|Architecture
Fundamental|of|HDFS|(Blocks,|Name|Node,|Data|Node,|Secondary|Name|Node)
Rack|Awareness
Read/Write|from|HDFS
HDFS|Federation|and|High|Availability
【问题讨论】:
【参考方案1】:将数据加载到字符数组中。替换“|”带空格,即 ' ' 并标记将为您提供单词的行,然后对单词进行分组和计数
A = LOAD '/user/hadoop/data.txt' AS (line:chararray);
B = FOREACH A GENERATE FLATTEN(TOKENIZE(REPLACE(line,'\\|',' ')));
C = GROUP B BY $0;
D = FOREACH C GENERATE group, COUNT(B);
DUMP D;
输出
【讨论】:
从上面的代码输出我得到单个字母。我想显示单词然后计数。输出如下所示: (W) (h) (a) (t) (|) (i) (s) (|) (H) (a) (d) (o) (o) (p) ...我想以以下方式显示输出(什么),(hadoop)..你能帮忙以上是关于阿帕奇猪程序的主要内容,如果未能解决你的问题,请参考以下文章