Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?
Posted
技术标签:
【中文标题】Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?【英文标题】:Apache Pig - How to maintain a distributed look-up table for my python UDF to access? 【发布时间】:2015-02-07 12:22:28 【问题描述】:在我的 Pig 脚本中,有一个中间步骤,我想将生成的服务器主机名映射到应用程序名称。我有一个使用此映射从数据库创建的文本文件(约 10k 条记录)。但我不确定如何将此文本文件分发到 pig 并在运行时访问它们。请帮忙..!!
【问题讨论】:
【参考方案1】:这是使用 Pig 的 fragment-replicate join 算法的完美用例。您可以将查找表加载为 Pig 关系,并将其与您的实际数据结合起来。
A = LOAD 'data1' USING ... AS ...;
B = LOAD 'lookuptable' USING ... AS ...;
C = JOIN A BY join_key, B BY join_key USING 'replicated';
请注意,您要加载到内存中的表应位于连接的右侧,如上所示。
【讨论】:
以上是关于Apache Pig - 如何维护一个分布式查找表以供我的 python UDF 访问?的主要内容,如果未能解决你的问题,请参考以下文章
如何在 Apache Pig 中查找包含大量单词的列是不是具有真实的电子邮件 ID?