在 PostgreSQL 上以正确的顺序对数组元素进行分组
Posted
技术标签:
【中文标题】在 PostgreSQL 上以正确的顺序对数组元素进行分组【英文标题】:Grouping array elements in the correct order on PostgreSQL 【发布时间】:2016-03-16 16:07:37 【问题描述】:PostgreSQL 中是否可以对数组元素进行分组?
例如,我有 2 个这样的相关数组(我说相关是因为第一个数组表示动作,第二个数组表示这些动作的时间:
col0 = 'any_value'
col1 = array1['a','b','b','c','c','a','a','a','c']
col2 = array2[1,2,3,4,5,6,7,8,9]
我想输出以下结果:
col0 = 'any_value'
array_result1['a','b','c','a','c']
array_result2[1,2,4,6,9]
数组可以取消嵌套的一种方法是使用序数,这是一个示例查询,但它返回的数组元素的不同选择会删除重复的元素:
select col0,
array_agg(x order by rn) as unique_array1
from (
select
distinct on (col0, a.x) col0,
a.x,
a.rn
from table_a,
unnest(array1) with ordinality as a (x,rn)
order by 1,2,3
) unnested_ordered
group by col0;
所以结果是:
col0 = 'any_value'
array_result1['a','b','c']
但正如您所见,它缺少许多元素。
编辑:
为了更多地描述我的问题,最后我想知道每个 array_result1 操作最初是什么时候完成的。 所以对于示例结果
array_result1['a','b','c','a','c']
*array_result2[1,2,4,6,9]
*我假设数组的位置从1而不是0开始,我也固定了最后一个元素,应该是9而不是7
将帮助我知道第一个动作“a”什么时候发生,第二个动作“a”什么时候发生,这样我就可以计算出动作“a”返回到我正在构建的路径的时间。 所以第一次发生的动作'a'是= 1 第二次发生是 = 6
所以动作'a'在路径(数组)中出现了两次,需要5个时间单位才能重新出现。这就是为什么我需要第二个数组,其中包含动作发生的时间(每个动作第一次发生的时间)
【问题讨论】:
我不明白你的第二个结果。不应该是1,2,4,6,9
吗?
不,字母的位置很重要,就像按字母的子组分组
【参考方案1】:
您可以使用LATERAL
并使用ROW_NUMBER
计算组:
DROP TABLE IF EXISTS table_a;
CREATE TABLE table_a(col0 VARCHAR(10), col1 text[],col2 int[]);
INSERT INTO table_a(col0, col1, col2)
VALUES ('any_value',array['a','b','b','c','c','a','a','a','c'],
array[1,2,3,4,5,6,7,8,9]);
主要查询:
SELECT col0,
col1,
unique_col1
FROM table_a,
LATERAL (SELECT ARRAY_AGG(x ORDER BY grp) AS unique_col1
FROM ( SELECT DISTINCT x,
rn - ROW_NUMBER() OVER(PARTITION BY x ORDER BY rn) AS grp
FROM unnest(col1) WITH ORDINALITY AS a(x,rn)
) AS sub
) AS lat1
输出:
编辑:
计算第二个数组:
SELECT col0,
col1,
unique_col1,
col2,
unique_col2
FROM table_a,
LATERAL (SELECT ARRAY_AGG(x ORDER BY grp) AS unique_col1
FROM ( SELECT DISTINCT x,
rn - ROW_NUMBER() OVER(PARTITION BY x ORDER BY rn) AS grp
FROM unnest(col1) WITH ORDINALITY AS a(x,rn)
) AS sub
) AS lat1,
LATERAL (
SELECT array_agg(x ORDER BY rn) AS unique_col2
FROM unnest(col2) WITH ORDINALITY AS b(x,rn)
WHERE rn IN (
SELECT SUM(c) OVER(ORDER BY grp) - (c-1) AS result
FROM (SELECT grp, COUNT(*) AS c
FROM ( SELECT x,
rn - ROW_NUMBER() OVER(PARTITION BY x ORDER BY rn) AS grp
FROM unnest(col1) WITH ORDINALITY AS a(x,rn)
) AS sub
GROUP BY grp) AS s
)
) AS lat2
备注:
它从值生成第二个数组,而不是它的位置,所以当你有:
col2 = array[9,8,7,6,5,4,3,2,1]
你会得到:
[9,8,6,4,1]
如果您只想要可以使用的职位:
...
LATERAL (
SELECT array_agg(result ORDER BY result) AS unique_col2
FROM (
SELECT SUM(c) OVER(ORDER BY grp) - (c-1) AS result
FROM (SELECT grp, COUNT(*) AS c
FROM ( SELECT x,
rn - ROW_NUMBER() OVER(PARTITION BY x ORDER BY rn) AS grp
FROM unnest(col1) WITH ORDINALITY AS a(x,rn)
) AS sub
GROUP BY grp) AS s
) AS s1
) AS lat2
结果将是:
[1,2,4,6,9]
编辑 2
以上版本有小错误。 ARRAY_AGG
应按 rn
而非 grp
排序:
DROP TABLE IF EXISTS table_a;
CREATE TABLE table_a(col0 VARCHAR(10), col1 text[],col2 int[]);
INSERT INTO table_a(col0, col1, col2)
VALUES ('any_value',array['a','b','b','c','c','a','a','a','c'],
array[1,2,3,4,5,6,7,8,9]);
INSERT INTO table_a(col0, col1, col2)
VALUES ('any_value2',array['a','b','a','a','c','a'],array[1,2,3,4,5,6]);
SELECT *
FROM table_a,
LATERAL (SELECT ARRAY_AGG(x ORDER BY rn) AS unique_col1
FROM
(SELECT x, grp, MIN(rn) AS rn
FROM (SELECT x,
rn - ROW_NUMBER() OVER(PARTITION BY x ORDER BY rn) AS grp,
rn
FROM unnest(col1) WITH ORDINALITY AS a(x,rn)
) AS sub
GROUP BY x, grp) AS s
) AS lat1;
【讨论】:
哇很好,虽然只是为了理解,如果我添加一个 grp 数组,我会在第一行得到类似的结果,例如:“0,1,3,4,6”如果正确的位置是 0,1,3,5,8,那么组织是否正确 @johan855 要组织col1
结果,您不需要有实际位置,只需它们的升序即可。类似于“squasing island”(搜索gap-and-islands-problem)
我明白了,但是我不能有一个数组来显示每个动作的实际位置?所以一个告诉我:第一次动作 a 发生,它发生在 0 第一次 b 发生,它发生在 1 等等
是的,这就是为什么我问如何计算第二个结果集的问题。当前形式的此答案解决了您的第一个问题。
当时发生的动作不能与有序时刻一起输出吗?以上是关于在 PostgreSQL 上以正确的顺序对数组元素进行分组的主要内容,如果未能解决你的问题,请参考以下文章