使用大象鸟加载 json - 简单任务出错
Posted
技术标签:
【中文标题】使用大象鸟加载 json - 简单任务出错【英文标题】:Loading json using elephantbird - error with simple task 【发布时间】:2016-08-08 18:38:03 【问题描述】:我无法简单地加载数据进行测试和分析。 我正在使用
https://www.reddit.com/r/datasets/comments/3oiv9z/reddit_september_comment_archive_is_now_available/
在使用从这个文件中仅获取 10000 行之后,我尝试将它们加载到 pig。
即使像这样简单的事情也会返回错误。
REGISTER '/user/cloudera/json-simple-1.1.1.jar'
REGISTER '/user/cloudera/elephant-bird-pig-4.1.jar'
REGISTER '/user/cloudera/elephant-bird-hadoop-compat-4.1.jar'
a = LOAD '/user/cloudera/top' USING com.twitter.elephantbird.pig.load.JsonLoader() as (json:map[]);
错误代码:
主类[org.apache.oozie.action.hadoop.PigMain],退出代码[2]
【问题讨论】:
你能把你的错误日志贴在这里吗? 【参考方案1】:尝试运行这个
REGISTER 'elephant-bird-pig-4.1.jar';
REGISTER 'elephant-bird-hadoop-compat-4.1.jar';
input = LOAD '/input/file' USING com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') AS input_map;
【讨论】:
以上是关于使用大象鸟加载 json - 简单任务出错的主要内容,如果未能解决你的问题,请参考以下文章
尝试使用 LzoPigStorage 和大象鸟加载索引 LZO 文件