在 Apache Pig 中加载 csv 文件时出错

Posted

技术标签:

【中文标题】在 Apache Pig 中加载 csv 文件时出错【英文标题】:Error in loading the csv file in Apache Pig 【发布时间】:2017-12-12 08:27:55 【问题描述】:

我尝试在 apache pig 在 hdfs 模式下使用以下命令加载数据: test = LOAD /user/swap/done2.csv using PigStorage (',') as (ID:long, Country:chararray, Carrier:float, ClickDate:chararray, Device:chararray, OS:chararray, UserIp:chararray, PublisherId:浮动,广告商CampaignId:浮动,欺诈:浮动);

它给出的错误如下: 2017-12-12 13:49:10,347 [main] 错误 org.apache.pig.tools.grunt.Grunt - 错误 1200:不匹配的输入“/”期望引用字符串 日志文件中的详细信息:/home/matlab/Documents/pig_1513066708530.log

令人惊讶的是,我的数据集没有 13 列。

【问题讨论】:

【参考方案1】:

文件路径应该用引号''加载

test = LOAD '/user/swap/done2.csv' using PigStorage (',') as (ID:long, Country:chararray, Carrier:float, ClickDate:chararray, Device:chararray, OS:chararray, UserIp :chararray, PublisherId:float, advertiserCampaignId:float, Fraud:float);

【讨论】:

以上是关于在 Apache Pig 中加载 csv 文件时出错的主要内容,如果未能解决你的问题,请参考以下文章

CSV 将大量数据加载到 Pig 中

Apache Pig - 在猪关系中加载时缺少数字数据

Apache Pig 中的 HCatalog 可以只加载特定分区吗?

在 Pig Latin 中加载 UDF 时发生 ClassCastException 错误

在 pig 中加载多个文件

PIG 加载 CSV - 地图类型错误