Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?

Posted

技术标签:

【中文标题】Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?【英文标题】:Apache Pig - How to maintain a distributed look-up table for my python UDF to access? 【发布时间】:2015-02-07 12:22:28 【问题描述】:

在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(约 10k 条记录)。但我不确定如何将此文本文件分发到 pig 并在运行时访问它们。请帮忙..!!

【问题讨论】:

【参考方案1】:

这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找表加载为 Pig 关系,并将其与您的实际数据结合起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意,您要加载到内存中的表应位于连接的右侧,如上所示。

【讨论】:

以上是关于Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Apache Pig 中查找包含大量单词的列是不是具有真实的电子邮件 ID?

Apache Pig 如何在加载功能中加入白名单或黑名单?

大数据 hadoop ------ pig hiveMahouthbase

大数据Hadoop生态圈:Pig和Hive

在 Apache Pig 中计算不同的项目

如何使用 apache pig 递归加载文件