在 pig 中转储一个字符串或一个(字符串,整数)元组

Posted

技术标签:

【中文标题】在 pig 中转储一个字符串或一个(字符串,整数)元组【英文标题】:Dump a string or a (string, integer) tuple in pig 【发布时间】:2015-03-12 17:26:24 【问题描述】:

我有一个简单的猪脚本,我能够读取数据并转储数据。但是,我未能转储字符串或 (string, int) 元组。只是想知道我在这里错过了什么?非常感谢!


dataset = LOAD '/Users/me/input' USING PigStorage() AS (id:chararray,data:chararray);

dataset_GROUP = GROUP dataset ALL;
dataset_COUNT = FOREACH dataset_GROUP GENERATE COUNT(dataset);

DUMP "record_count = ";                 <-- this does not work
DUMP dataset_COUNT;                     <-- this works 
DUMP "record_count = ", dataset_COUNT;  <-- this does not work

【问题讨论】:

【参考方案1】:

您可以使用 Apache Pig 的 CONCAT() 函数将您的字符串连接到结果中,如下所示:

dataset = LOAD '/Users/me/input' USING PigStorage() AS (id:chararray,data:chararray);

dataset_GROUP = GROUP dataset ALL;
dataset_COUNT = FOREACH dataset_GROUP GENERATE CONCAT('record_count = ', COUNT(dataset));

DUMP dataset_COUNT;

关于Apache Pig 0.13.0的Concat()的更多细节,你可以查看here

如果您使用的是旧版 Pig,那么您可以编写 用户定义函数 (UDF) 来执行连接操作并返回结果。更多详情请参考Pig Documentation on UDF

【讨论】:

以上是关于在 pig 中转储一个字符串或一个(字符串,整数)元组的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Hadoop/PIG 中处理非 ASCII/亚洲/中文字符

在 Talend 中实现 UDF 和 Pig 脚本逻辑

Pig - 无法转储数据

Pig 在空集中生成结果

Pig 的“转储”在 AWS 上不起作用

将大型嵌套字典转储到 JSON 对象中[重复]