无法在猪中处理 Xml

Posted

技术标签:

【中文标题】无法在猪中处理 Xml【英文标题】:Unable to process Xml in pig 【发布时间】:2016-06-16 11:01:14 【问题描述】:

我是在猪工作的新手。我在处理 XML 文件时遇到了一个问题,我使用了以下命令:

register '/usr/lib/pig-0.12.0/contrib/piggybank/java/piggybank.jar'
pigdata = load '/xml1.xml' using org.apache.pig.piggybank.storage.XMLLoader('name') as (doc:chararray);

values = foreach pigdata GENERATE FLATTEN(REGEX_EXTRACT_ALL(doc,'<name>(.*)</name>')) AS (name:chararray);

dump values;

【问题讨论】:

【参考方案1】:

此问题可能是由于文件路径问题和/或权限问题。您能否检查输入文件的 hdfs 文件路径是否存在于 /user/edureka/xml1.xml 中。您也可以手动检查是否能够在 hdfs://localhost:8020/tmp 目录等中创建新文件以排除权限问题。

【讨论】:

以上是关于无法在猪中处理 Xml的主要内容,如果未能解决你的问题,请参考以下文章

在猪中使用 AvroStorage()

在猪中解析复杂的json?

在猪中正确加载日期时间

在猪中增加映射器

如何在猪中读取json数据?

多列组合在猪中唯一