Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件
Posted
技术标签:
【中文标题】Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件【英文标题】:Pig — how to load a CSV file having fields enclosed within double quotes and separated by comma 【发布时间】:2017-03-11 11:08:31 【问题描述】:我有一个 .csv 文件,其中的数据如下所示:
001, 4567, 7012, “x,y,z”, abc, pqr, 56
002, 3456, 5457, “t,f,q”, str, whg, 78
003, 6782, 4562, “h,s,w”, uij, edc, 39
004, 2348, 2673, “k,g,r”, plg, esa, 57
当我使用 PigStorage(‘,’)
将此数据加载到 PIG 中时,由于数据中的“,”,双引号内的数据也被视为单独的字段。
我的要求是将引号内的数据视为单个字段,将其他数据视为基于逗号分隔的单独字段。 有人可以建议我如何实现这一目标。
谢谢, 纳文
【问题讨论】:
你试过CSVLoader or CSVExcelStorage吗? 【参考方案1】:看看这些: 首先下载piggybank jar。
csv reading in pig, csv file contains quoted comma http://help.mortardata.com/integrations/amazon_s3/csv
【讨论】:
以上是关于Pig — 如何加载包含用双引号括起来并用逗号分隔的字段的 CSV 文件的主要内容,如果未能解决你的问题,请参考以下文章