根据 APACHE PIG 中的条件加载数据

Posted

技术标签:

【中文标题】根据 APACHE PIG 中的条件加载数据【英文标题】:loading data based on conditions in APACHE PIG 【发布时间】:2013-09-30 09:19:13 【问题描述】:

问题陈述- 我想检查与 xyz 相关的列的值是否是偶数,然后加载文件 abc 的前 10 个字段(1-10),如果不是,则加载另一个 10(11-20)。

关系 XYZ 123

关系 ABC a b c d e f g h i j k l m n o p q r s t

如果 123 是偶数 关系 PQR 应该有 a-j 其他明智的k-t

有人可以帮忙吗。

【问题讨论】:

【参考方案1】:

你应该写一个存储函数来做到这一点。

以CSVExcelStoragehttp://svn.apache.org/repos/asf/pig/trunk/contrib/piggybank/java/src/main/java/org/apache/pig/piggybank/storage/CSVExcelStorage.java的实现为例。

【讨论】:

谢谢,提取了我需要的东西:)

以上是关于根据 APACHE PIG 中的条件加载数据的主要内容,如果未能解决你的问题,请参考以下文章

Pig 错误:无法找到或加载主类 org.apache.pig.Main

Apache PIG - 使用百分比值对 foreach 中的分组数据进行采样

如何使用 apache pig 将标题行加入多个文件中的详细行

大数据笔记(十八)——Pig的自定义函数

Apache Pig - 具有多个匹配条件的 MATCHES

如何使用 apache pig 递归加载文件