Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件

Posted

技术标签:

【中文标题】Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件【英文标题】:Pig — how to load a CSV file having fields enclosed within double quotes and separated by comma 【发布时间】:2017-03-11 11:08:31 【问题描述】:

我有一个 .csv 文件,其中的数据如下所示:

001, 4567, 7012, “x,y,z”, abc, pqr, 56
002, 3456, 5457, “t,f,q”, str, whg, 78
003, 6782, 4562, “h,s,w”, uij, edc, 39
004, 2348, 2673, “k,g,r”, plg, esa, 57

当我使用 PigStorage(‘,’) 将此数据加载到 PIG 中时,由于数据中的“,”,双引号内的数据也被视为单独的字段。

我的要求是将引号内的数据视为单个字段,将其他数据视为基于逗号分隔的单独字段。 有人可以建议我如何实现这一目标。

谢谢, 纳文

【问题讨论】:

你试过CSVLoader or CSVExcelStorage吗? 【参考方案1】:

看看这些: 首先下载piggybank jar。

csv reading in pig, csv file contains quoted comma http://help.mortardata.com/integrations/amazon_s3/csv

【讨论】:

以上是关于Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件的主要内容,如果未能解决你的问题,请参考以下文章

opencsv写入时去掉双引号

CSV文件格式要求

用双引号将每个字符串括在逗号分隔的字符串中

csv文件

复制用双引号括起来的 Redshift Pipe Delimited

CSV文件格式介绍