如何使用 apache Pig 插入过滤数据的索引?

Posted

技术标签:

【中文标题】如何使用 apache Pig 插入过滤数据的索引?【英文标题】:How can I insert index for filtered data using apache Pig? 【发布时间】:2020-07-05 20:34:35 【问题描述】:

我想使用 Pig 脚本为过滤的数据集/记录提供像 1、2、... 这样的索引,我正在以设置的格式加载到表中,所以当我添加索引/id 时我无法添加加载。我尝试了 Rank 功能,但它在我的公司环境下不起作用,我不能使用 UDF。目前的代码是这样的,我想给filterTable插入索引。

table1 = LOAD 'tmp' using TransactionLoader(...);
filterTable = FOREACH table1 
       rec = FILTER records BY (record MATCHES '.*\t2\t.*');
       GENERATE rec;
;

非常感谢任何帮助,谢谢!

【问题讨论】:

【参考方案1】:

如果你不会写 UDF,Rank 是唯一的选择final = rank filterTable;

【讨论】:

以上是关于如何使用 apache Pig 插入过滤数据的索引?的主要内容,如果未能解决你的问题,请参考以下文章

在 Apache Pig 中过滤数据

计算过滤的值 - Apache PIG

过滤 PIG LATIN 脚本中的列在为空的单元格上插入来自其他列的数据

大数据笔记(十八)——Pig的自定义函数

pig:过滤掉空字符串

Apache PIG - 使用百分比值对 foreach 中的分组数据进行采样