Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问？

Posted 2023-04-18

技术标签:

【中文标题】Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问？【英文标题】：Apache Pig - How to maintain a distributed look-up table for my python UDF to access? 【发布时间】：2015-02-07 12:22:28 【问题描述】：

在我的 Pig 脚本中，有一个中间步骤，我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件（约 10k 条记录）。但我不确定如何将此文本文件分发到 pig 并在运行时访问它们。请帮忙..!!

【问题讨论】：

【参考方案1】：

这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找表加载为 Pig 关系，并将其与您的实际数据结合起来。

A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';

请注意，您要加载到内存中的表应位于连接的右侧，如上所示。

【讨论】：

以上是关于Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问？的主要内容，如果未能解决你的问题，请参考以下文章