比较来自两个不同表的两列的逗号分隔值
Posted
技术标签:
【中文标题】比较来自两个不同表的两列的逗号分隔值【英文标题】:Comparing comma separated values from two columns of two different tables 【发布时间】:2020-02-02 20:59:43 【问题描述】:我想比较两个不同 Oracle 表的具有逗号分隔值的两列(差异表)的值。我想找到与所有值匹配的行(NAME1
所有值 应该与NAME2
值匹配)。
注意:逗号分隔的值顺序不同。
例子:
T1:
ID_T1 NAME1
===================================
1 ASCORBIC ACID, PARACETAMOL, POTASSIUM HYDROGEN CARBONATE
2 SODIUM HYDROGEN CARBONATE, SODIUM CARBONATE ANHYDROUS, CITRIC ACID
3 CAFFEINE, PARACETAMOL PH. EUR.
4 PSEUDOEPHEDRINE HYDROCHLORIDE,DEXCHLORPHENIRAMINE MALEATE
T2:
ID_T2 NAME2
=================================
4 POTASSIUM HYDROGEN CARBONATE, ASCORBIC ACID, PARACETAMOL
5 SODIUM HYDROGEN CARBONATE, SODIUM CARBONATE ANHYDROUS
6 PARACETAMOL PH. EUR.,CAFFEINE
7 CODEINE PHOSPHATE, PARACETAMOL DC
8 DEXCHLORPHENIRAMINE MALEATE, DEXTROMETHORPHAN HYDROBROMIDE
10 DEXCHLORPHENIRAMINE MALEATE, PSEUDOEPHEDRINE HYDROCHLORIDE
MY RESULT 应该只显示基于两个表中的 ALL NAME 匹配的匹配行。
ID_T1 ID_T2 MATCHING NAME
==================================
1 4 POTASSIUM HYDROGEN CARBONATE, ASCORBIC ACID, PARACETAMOL
3 6 PARACETAMOL PH. EUR.,CAFFEINE
4 10 PSEUDOEPHEDRINE HYDROCHLORIDE,DEXCHLORPHENIRAMINE MALEATE
尝试使用REGEXP_SUBST
,但无法成功。
我使用下面的代码来解析值:
SELECT REGEXP_SUBSTR (NAME1, '[^,]+', 1, ROWNUM)
FROM T1
CONNECT BY ROWNUM <= LENGTH (NAME1) -
LENGTH (REPLACE (NAME, ',')) + 1
【问题讨论】:
在数据库列中存储任意分隔的字符串是不好的做法。它违反了First Normal Form。这不是一些乏味的学术观点:正如您所发现的,尝试使用 SQL 来处理此类字符串是很困难的。 明白,但我们不能解析值并使用 REGEXP 进行连接吗? Oracle Query: How to compare two column of different table having comma separated values的可能重复 【参考方案1】:您可以将表格转换为第一范式,然后比较存储在每一行中的化合物。起点可以是:
1 对每一行进行标记,并将标记写入新表中。为每个令牌的原始 ID 加上一个 3 字母前缀,指示令牌来自哪个表。 2 按 ID 对新(“规范化”)表的行进行分组,并执行 LISTAGG()。执行自加入,并找到匹配的“令牌组”。
1 标记化,将表创建为选择 (CTAS)
create table tokens
as
select
ltrim( -- ltrim() and rtrim() remove leading/trailing spaces (blanks)
rtrim(
substr( N.wrapped
, instr( N.wrapped, ',', 1, T.pos ) + 1
, ( instr( N.wrapped, ',', 1, T.pos + 1 ) - instr( N.wrapped, ',', 1, T.pos ) ) - 1
)
)
) token
, N.id
from (
select ',' || name1 || ',' as wrapped, 'T1_' || to_char( id_t1 ) as id from t1 -- names wrapped in commas, (table)_id
union all
select ',' || name2 || ',' , 'T2_' || to_char( id_t2 ) from t2
) N join (
select level as pos -- (max) possible position of char in an existing token
from dual
connect by level <= (
select greatest( -- find the longest string ie max position (query T1 and T2)
( select max( length( name1 ) ) from t1 )
, ( select max( length( name2 ) ) from t2 )
) as pos
from dual
)
) T
on T.pos <= ( length( N.wrapped ) - length( replace( N.wrapped, ',') ) ) - 1
;
不使用 CONNECT BY 的标记化灵感来自 this SO answer。
TOKENS 表的内容如下所示:
SQL> select * from tokens ;
TOKEN ID
ASCORBIC ACID T1_1
SODIUM HYDROGEN CARBONATE T1_2
CAFFEINE T1_3
PSEUDOEPHEDRINE HYDROCHLORIDE T1_4
PARACETAMOL T1_100
sodium hydroxide T1_110
POTASSIUM HYDROGEN CARBONATE T2_4
SODIUM HYDROGEN CARBONATE T2_5
PARACETAMOL PH. EUR. T2_6
CODEINE PHOSPHATE T2_7
DEXCHLORPHENIRAMINE MALEATE T2_8
DEXCHLORPHENIRAMINE MALEATE T2_10
PARACETAMOL T2_200
...
2 GROUP BY、LISTAGG、自加入
select
S1.id id1
, S2.id id2
, S1.tokengroup_T1
, S2.tokengroup_T2
from
(
select substr( id, 4, length( id ) - 3 ) id
, listagg( token, ' + ' ) within group ( order by token ) tokengroup_T1
from tokens
group by id
having substr( id, 1, 3 ) = 'T1_'
) S1
join
(
select substr( id, 4, length( id ) - 3 ) id
, listagg( token, ' + ' ) within group ( order by token ) tokengroup_T2
from tokens
group by id
having substr( id, 1, 3 ) = 'T2_'
) S2
on S1.tokengroup_T1 = S2.tokengroup_T2
;
-- result
ID1 ID2 TOKENGROUP_T1 TOKENGROUP_T2
4 10 DEXCHLORPHENIRAMINE MALEATE + PSEUDOEPHEDRINE HYDROCHLORIDE DEXCHLORPHENIRAMINE MALEATE + PSEUDOEPHEDRINE HYDROCHLORIDE
110 210 potassium carbonate + sodium hydroxide potassium carbonate + sodium hydroxide
1 4 ASCORBIC ACID + PARACETAMOL + POTASSIUM HYDROGEN CARBONATE ASCORBIC ACID + PARACETAMOL + POTASSIUM HYDROGEN CARBONATE
3 6 CAFFEINE + PARACETAMOL PH. EUR. CAFFEINE + PARACETAMOL PH. EUR.
这样做时,您可以将物质按(字母)顺序排列,您还可以在此处选择您喜欢的“分隔符”(我们使用了“+”)。
替代
如果这一切对你没有用,或者你认为这太复杂了,那么你可以尝试使用 TRANSLATE()。在这种情况下,我建议从数据集中删除所有空格/空格(在查询中 - 不 更改原始数据!),如下所示:
查询
select
id1, id2
, name1, name2
from (
select
id_t1 id1
, id_t2 id2
, T1.name1 name1
, T2.name2 name2
from T1
join T2
on translate( replace( T1.name1, ' ', '' ), replace( T2.name2, ' ', '' ), '!' )
= translate( replace( T2.name2, ' ', '' ), replace( T1.name1, ' ', '' ), '!' )
) ;
结果
ID1 ID2 NAME1 NAME2
2 5 SODIUM HYDROGEN CARBONATE, SODIUM CARBONATE ANHYDROUS, CITRIC ACID SODIUM HYDROGEN CARBONATE, SODIUM CARBONATE ANHYDROUS
3 6 CAFFEINE, PARACETAMOL PH. EUR. PARACETAMOL PH. EUR.,CAFFEINE
100 10 PARACETAMOL, DEXTROMETHORPHAN, PSEUDOEPHEDRINE, PYRILAMINE DEXCHLORPHENIRAMINE MALEATE, PSEUDOEPHEDRINE HYDROCHLORIDE
110 210 sodium hydroxide, potassium carbonate sodium hydroxide, potassium carbonate
注意: 我已将以下行添加到您的示例数据中:
-- T1
110, 'sodium hydroxide, potassium carbonate'
-- T2
210, 'sodium hydroxide, potassium carbonate'
211, 'potassium hydroxide, sodium carbonate'
我发现使用 TRANSLATE() 很容易,它会给您“误报”,即 ID 为 110、210 和 211 的物质看起来“匹配”。 (换句话说:我认为这不是这项工作的正确工具。)
DBFIDDLE here
(点击链接查看示例表和查询)。
【讨论】:
@stefan- 非常感谢!!!您的第一个解决方案在本质上更加健壮和可扩展。 不客气!您是否有可能“接受”我的回答——或者至少“赞成”它? :-) 对不起 Stefan,我试图根据我的数据模型部署解决方案,而您的解决方案适合它。我接受了你的回答,也投了赞成票。谢谢你的时间。 没什么好遗憾的!我很高兴你提出了一个我觉得很有趣的问题。祝你好运!以上是关于比较来自两个不同表的两列的逗号分隔值的主要内容,如果未能解决你的问题,请参考以下文章