Pig函数读取分隔符后的字符

Posted

技术标签:

【中文标题】Pig函数读取分隔符后的字符【英文标题】:Pig function to read characters after a separator 【发布时间】:2014-07-21 13:20:25 【问题描述】:

这是我的输入文件

a1,hello.VDF
a2,rim.VIM
a3.dr.VDD

我需要如下输出

a1,VDF
a2,VIM
a3,VDD

我的脚本如下:

myinput = LOAD 'file' 使用 PigStorage(',') AS(t1:chararray,t2:chararray); foreached= FOREACH myinput 生成 t1,SUBSTRING(t2,INDEXOF(t2,'.',1),SIZE(t2));

它抛出了一些错误。请帮忙

【问题讨论】:

请定义一些错误 【参考方案1】:

试试这个:

output = foreach myinput generate ((t1 matches '(.*)\\.(.*)'?SUBSTRING(t1, 0, 2):t1), (t1 matches '(.*)\\.(.*)'?SUBSTRING(t1, INDEXOF(t1,'.',0)+1, (int)SIZE(t1)):t2));

【讨论】:

【参考方案2】:

SIZE返回long,但SUBSTRING接受整数,所以需要进行转换:

foreached = 
  FOREACH myinput GENERATE t1,SUBSTRING(t2,INDEXOF(t2,'.',1)+1,(int)SIZE(t2));

【讨论】:

以上是关于Pig函数读取分隔符后的字符的主要内容,如果未能解决你的问题,请参考以下文章

使用 Pig 读取以空格分隔的文件

使用管道连字符管道将数据加载到 Pig |-|分隔符

使用 PIG 删除空格

PIG LOAD 文件名

在 Pig 字段中拆分字符

hive函数之~行转列与列转行