使用 PIG 删除空格

Posted

技术标签:

【中文标题】使用 PIG 删除空格【英文标题】:Remove whitespace using PIG 【发布时间】:2017-07-06 11:16:21 【问题描述】:

我有逗号 (,) 分隔的 (csv) 数据集。我想在 Pig 脚本中删除的每个分隔符后面都有一个空格。示例行如下所示:

"Sachin", "India", "batsaman", "99", "kolkata", " ", "xyz"

去掉逗号后的空格后应该是这样的:

"Sachin","India","batsaman","99","kolkata"," ","xyz"

【问题讨论】:

【参考方案1】:

将其加载到单个字段中并使用 REPLACE。

A = LOAD 'data.txt' USING TextLoader();
B = FOREACH A GENERATE REPLACE($0,' ','');

【讨论】:

以上是关于使用 PIG 删除空格的主要内容,如果未能解决你的问题,请参考以下文章

Apache Pig 使用逗号和空格加载数据(我该怎么做?)

仅当它在 Pig 中的内部引号(“”)时才替换逗号(,)

使用 Apache Pig 将数据加载到 Hbase 表时,如何排除 csv 或文本文件中没有数据(只有空格)的列?

使用 PIG 或 HIVE 从 CSV 中删除前两行

使用 Pig 脚本删除文件的第一行和最后一行

无法删除 Pig 中的特殊字符