如何在 oracle 9i 中最好地拆分 csv 字符串
Posted
技术标签:
【中文标题】如何在 oracle 9i 中最好地拆分 csv 字符串【英文标题】:How to best split csv strings in oracle 9i 【发布时间】:2009-07-06 22:31:57 【问题描述】:我希望能够在 Oracle 9i 中拆分 csv 字符串
我已阅读以下文章 http://www.oappssurd.com/2009/03/string-split-in-oracle.html
但我不明白如何进行这项工作。 以下是我的一些相关问题
-
这在 Oracle 9i 中是否有效,如果不能,为什么不呢?
有没有比上述解决方案更好的分割 csv 字符串的方法?
我需要创建一个新类型吗?如果是这样,我是否需要特定的特权?
我可以在函数中声明类型吗?
【问题讨论】:
【参考方案1】:乔伊斯,
这里是三个例子:
1) 使用 dbms_utility.comma_to_table。这不是通用例程,因为元素应该是有效的标识符。通过一些肮脏的技巧,我们可以使其更通用:
SQL> declare
2 cn_non_occuring_prefix constant varchar2(4) := 'zzzz';
3 mystring varchar2(2000):='a:sd:dfg:31456:dasd: :sdfsdf'; -- just an example
4 l_tablen binary_integer;
5 l_tab dbms_utility.uncl_array;
6 begin
7 dbms_utility.comma_to_table
8 ( list => cn_non_occuring_prefix || replace(mystring,':',','||cn_non_occuring_prefix)
9 , tablen => l_tablen
10 , tab => l_tab
11 );
12 for i in 1..l_tablen
13 loop
14 dbms_output.put_line(substr(l_tab(i),1+length(cn_non_occuring_prefix)));
15 end loop;
16 end;
17 /
a
sd
dfg
31456
dasd
sdfsdf
PL/SQL-procedure is geslaagd.
2) 使用 SQL 的按级别连接。如果您使用的是 10g 或更高版本,则可以将逐级连接方法与正则表达式结合使用,如下所示:
SQL> declare
2 mystring varchar2(2000):='a:sd:dfg:31456:dasd: :sdfsdf'; -- just an example
3 begin
4 for r in
5 ( select regexp_substr(mystring,'[^:]+',1,level) element
6 from dual
7 connect by level <= length(regexp_replace(mystring,'[^:]+')) + 1
8 )
9 loop
10 dbms_output.put_line(r.element);
11 end loop;
12 end;
13 /
a
sd
dfg
31456
dasd
sdfsdf
PL/SQL-procedure is geslaagd.
3) 再次使用 SQL 的按级别连接,但现在与旧的 SUBSTR/INSTR 结合使用,以防您使用的是版本 9,就像您一样:
SQL> declare
2 mystring varchar2(2000):='a:sd:dfg:31456:dasd: :sdfsdf'; -- just an example
3 begin
4 for r in
5 ( select substr
6 ( str
7 , instr(str,':',1,level) + 1
8 , instr(str,':',1,level+1) - instr(str,':',1,level) - 1
9 ) element
10 from (select ':' || mystring || ':' str from dual)
11 connect by level <= length(str) - length(replace(str,':')) - 1
12 )
13 loop
14 dbms_output.put_line(r.element);
15 end loop;
16 end;
17 /
a
sd
dfg
31456
dasd
sdfsdf
PL/SQL-procedure is geslaagd.
您可以在这篇博文中看到更多类似的技术:http://rwijk.blogspot.com/2007/11/interval-based-row-generation.html
希望这会有所帮助。
问候, 抢。
解决您的评论:
将分隔值插入规范化表的示例。
首先创建表:
SQL> create table csv_table (col)
2 as
3 select 'a,sd,dfg,31456,dasd,,sdfsdf' from dual union all
4 select 'a,bb,ccc,dddd' from dual union all
5 select 'zz,yy,' from dual
6 /
Table created.
SQL> create table normalized_table (value varchar2(10))
2 /
Table created.
因为您似乎对 dbms_utility.comma_to_table 方法感兴趣,所以我在这里提到它。但是,我当然不推荐这种变体,因为标识符的怪癖和逐行处理的速度很慢。
SQL> declare
2 cn_non_occuring_prefix constant varchar2(4) := 'zzzz';
3 l_tablen binary_integer;
4 l_tab dbms_utility.uncl_array;
5 begin
6 for r in (select col from csv_table)
7 loop
8 dbms_utility.comma_to_table
9 ( list => cn_non_occuring_prefix || replace(r.col,',',','||cn_non_occuring_prefix)
10 , tablen => l_tablen
11 , tab => l_tab
12 );
13 forall i in 1..l_tablen
14 insert into normalized_table (value)
15 values (substr(l_tab(i),length(cn_non_occuring_prefix)+1))
16 ;
17 end loop;
18 end;
19 /
PL/SQL procedure successfully completed.
SQL> select * from normalized_table
2 /
VALUE
----------
a
sd
dfg
31456
dasd
sdfsdf
a
bb
ccc
dddd
zz
yy
14 rows selected.
我推荐这个单一的 SQL 变体:
SQL> truncate table normalized_table
2 /
Table truncated.
SQL> insert into normalized_table (value)
2 select substr
3 ( col
4 , instr(col,',',1,l) + 1
5 , instr(col,',',1,l+1) - instr(col,',',1,l) - 1
6 )
7 from ( select ',' || col || ',' col from csv_table )
8 , ( select level l from dual connect by level <= 100 )
9 where l <= length(col) - length(replace(col,',')) - 1
10 /
14 rows created.
SQL> select * from normalized_table
2 /
VALUE
----------
a
a
zz
sd
bb
yy
dfg
ccc
31456
dddd
dasd
sdfsdf
14 rows selected.
问候, 抢。
【讨论】:
我认为使用 dbms_utility.comma_to_table 很好。这有点离题了。我将如何在充满这些 csv 值的列上运行并将它们全部插入到新表中?抱歉,我对 Oracle 非常陌生。欣赏它!乔伊斯 我在答案中添加了一个部分来解决您的评论。 嗨 Rob,解决方案 #2 [使用 SQL 的按级别连接] 对我来说效果很好。但是现在,我需要将 2 个 CSV 字符串[长度相等] 作为输入传递给 PL/ SQL 存储过程。而且,我需要将这两个 CSV 字符串中的值插入到表中的两个不同列中。您能告诉我该怎么做吗? 2 号很棒【参考方案2】:这是一个用于 Oracle 的字符串标记器,它比那个页面更简单一些,但不知道它是否一样快:
create or replace function splitter_count(str in varchar2, delim in char) return int as
val int;
begin
val := length(replace(str, delim, delim || ' '));
return val - length(str);
end;
create type token_list is varray(100) of varchar2(200);
CREATE or replace function tokenize (str varchar2, delim char) return token_list as
ret token_list;
target int;
i int;
this_delim int;
last_delim int;
BEGIN
ret := token_list();
i := 1;
last_delim := 0;
target := splitter_count(str, delim);
while i <= target
loop
ret.extend();
this_delim := instr(str, delim, 1, i);
ret(i):= substr(str, last_delim + 1, this_delim - last_delim -1);
i := i + 1;
last_delim := this_delim;
end loop;
ret.extend();
ret(i):= substr(str, last_delim + 1);
return ret;
end;
你可以这样使用它:
select tokenize('hi you person', ' ') from dual;
VARCHAR(hi,you,person)
【讨论】:
这是一个非常好的方法,至少在11g以下仍然适用。这种方法很快,因为您不会每次从零位置重新开始解析,而是从中断的地方继续解析。我已经开发了一些代码来处理它有点不同,发布在my blog on Parsing a string with a CSV into multiple columns。它有点相似,但我使用流水线函数和使用笛卡尔连接的奇怪方式走这条路。我确实在各个列中有结果。【参考方案3】:您可能想更清楚地了解您想要做什么,然后我们可以给您一个具体的答案。显示你的一些代码总是有帮助的:)
如果您使用参数来拆分一串 csv 数字(例如:1、2、3、4),然后在 IN
语句中使用它,请查看 Question 670922 中的函数 str2tbl()
。通过一些更改,您可以将其更改为 VARCHAR2
或您需要的任何内容。
在下面你可以设置:sMyCatagories
等于'1,2,3,4'
create or replace type myTableType as table of number;
create or replace function str2tbl( p_str in varchar2 ) return myTableType
as
l_str long default p_str || ',';
l_n number;
l_data myTableType := myTabletype();
begin
loop
l_n := instr( l_str, ',' );
exit when (nvl(l_n,0) = 0);
l_data.extend;
l_data( l_data.count ) := ltrim(rtrim(substr(l_str,1,l_n-1)));
l_str := substr( l_str, l_n+1 );
end loop;
return l_data;
end;
并在 select 语句中使用它......
SELECT
*
FROM
atable a
WHERE
a.category in (
select * from INLIST (
select cast(str2tbl(:sMyCatagories) as mytableType) from dual
)
);
这仅在您使用参数时才有用。如果您在应用程序中混合 SQL,则只需使用普通的 IN 语句。
SELECT
*
FROM
atable a
WHERE
a.category in (1,2,3,4);
【讨论】:
基本上,我只是想反透视 csv 数据,并想看看我是否可以在不需要创建新类型的情况下做到这一点,因为我没有权限。【参考方案4】:我最后用了这个
create or replace function split
(
p_list varchar2
) return sys.dbms_debug_vc2coll pipelined
is
l_idx pls_integer;
l_list varchar2(32767) := p_list;
l_value varchar2(32767);
begin
loop
l_idx := instr(l_list,',');
if l_idx > 0 then
pipe row(substr(l_list,1,l_idx-1));
l_list := substr(l_list,l_idx+length(','));
else
pipe row(l_list);
exit;
end if;
end loop;
return;
end split;
declare
CURSOR c IS select occurrence_num, graphics from supp where graphics is not null and graphics not like ' %';
begin
FOR r IN c LOOP
insert into image (photo_id,report_id, filename)
select image_key_seq.nextval photo_id, r.occurrence_num report_id,
t.column_value filename from table(split(cast(r.graphics as varchar2(1000)))) t where t.column_value is not null;
END LOOP;
end ;
【讨论】:
【参考方案5】:听起来您不想添加架构(类型、功能)。解析分隔文本的一种 SQL 唯一方法是使用 instr 和 substr 调用“发疯”。
DECLARE
V_CSV_STRING VARCHAR2(100);
BEGIN
--Create a test delimited list of first_name, last_name, middle_init
V_CSV_STRING := 'Brian,Hart,M';
select substr( V_CSV_STRING||',', 1, instr(V_CSV_STRING,',')-1 ) FIRST_NAME,
substr( V_CSV_STRING||',,', instr( V_CSV_STRING||',,', ',') +1,
instr( V_CSV_STRING||',,', ',', 1, 2 )-instr(V_CSV_STRING||',,',',')-1 ) LAST_NAME,
rtrim(substr( V_CSV_STRING||',,', instr( V_CSV_STRING||',,',',',1,2)+1),',') MIDDLE_INIT
from dual;
END;
如果您希望将结构形式化并添加适当的应用程序代码(函数、视图、类型等...),我会在 subject 上查看 Tom Kyte 的 writing。
【讨论】:
是的,我看过他的文章asktom.oracle.com/pls/asktom/…以上是关于如何在 oracle 9i 中最好地拆分 csv 字符串的主要内容,如果未能解决你的问题,请参考以下文章