使用大象鸟加载 json - 简单任务出错

Posted

技术标签:

【中文标题】使用大象鸟加载 json - 简单任务出错【英文标题】:Loading json using elephantbird - error with simple task 【发布时间】:2016-08-08 18:38:03 【问题描述】:

我无法简单地加载数据进行测试和分析。 我正在使用

https://www.reddit.com/r/datasets/comments/3oiv9z/reddit_september_comment_archive_is_now_available/

在使用从这个文件中仅获取 10000 行之后,我尝试将它们加载到 pig。

即使像这样简单的事情也会返回错误。

REGISTER '/user/cloudera/json-simple-1.1.1.jar'
REGISTER '/user/cloudera/elephant-bird-pig-4.1.jar'
REGISTER '/user/cloudera/elephant-bird-hadoop-compat-4.1.jar'

a = LOAD '/user/cloudera/top' USING com.twitter.elephantbird.pig.load.JsonLoader() as (json:map[]);

错误代码:

主类[org.apache.oozie.action.hadoop.PigMain],退出代码[2]

【问题讨论】:

你能把你的错误日志贴在这里吗? 【参考方案1】:

尝试运行这个

REGISTER 'elephant-bird-pig-4.1.jar';
REGISTER 'elephant-bird-hadoop-compat-4.1.jar';

input = LOAD '/input/file' USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') AS input_map;

【讨论】:

以上是关于使用大象鸟加载 json - 简单任务出错的主要内容,如果未能解决你的问题,请参考以下文章

在猪 0.16 中加载 json 数据时,大象鸟不存在错误

用大象鸟加载嵌套的json后如何查询它

尝试使用 LzoPigStorage 和大象鸟加载索引 LZO 文件

为啥大象鸟猪 JsonLoader 只处理我的文件的一部分?

使用带蜂巢的大象鸟来读取 protobuf 数据

无法在 AWS 中使用大象鸟和 Hive 反序列化 Protobuf (2.6.1) 数据