当 unpivot 未检测到具有不同类型的字段时,雪花如何转换选择查询的所有字段?

Posted

技术标签:

【中文标题】当 unpivot 未检测到具有不同类型的字段时,雪花如何转换选择查询的所有字段?【英文标题】:Snowflake how can we cast all fields of select query when unpivot is not detecting fields with a different types? 【发布时间】:2021-03-01 15:04:06 【问题描述】:

跟进这个question,我编写了以下脚本:

select
    OBSERVATION_DATE,
    name_col,
    md5(
        md5(
            concat_ws(
                '',
                val_col,
                DATE(OBSERVATION_DATE, 'DD/MM/YYYY'),
                'CAMP',
                CAMPNO
            )
        )
    ),
    current_timestamp(),
    NULL,
    'ONA',
    val_col,
    md5(
        concat_ws(
            '',
            'name_col',
            DATE(OBSERVATION_DATE, 'DD/MM/YYYY'),
            'CAMP',
            CAMPNO
        )
    )
from
    (
        select
            T.*
        FROM
            TEMP_TABLE_NAME T
    ) unpivot (val_col for name_col in (FACILITY_ID, CAMPNO));

它将帮助我转置一个临时表以将所有相关字段添加到另一个表中,其中每个 field/value 对代表一行。

我从这个查询中得到的错误是:

SQL 编译错误:位置 77 处的错误第 2 行无效标识符 'CAMPNO'

我认为可能是因为campNo是一个数字,所有字段都应该转换为varchar,所以我尝试了这个查询:

select cast(campno as varchar) as CAMPNO FROM TEMP_TABLE_NAME;

它有效,但在第二个 select 语句中我收到了一个错误:

...from (select cast(CAMPNO as varchar) as campno, T.* FROM TEMP_TABLE_NAME T)

得到一个错误:

SQL 编译错误:列名“CAMPNO”不明确

我需要将select * from myTable 中的所有字段转换为varchar。

【问题讨论】:

【参考方案1】:

您收到此错误的原因是,一旦您取消透视,就没有名为 campno 的列。您将该列取消透视为行:

设置示例

create or replace transient table source_table
(
    id               number,
    observation_date varchar,
    facility_id      varchar,
    campno           number
);

insert overwrite into source_table
values (1, '01/01/2020', 2, 23),
       (2, '02/01/2020', 3, 44),
       (3, '03/01/2020', 1, 123),
       (4, '04/01/2020', 1, 2233)
;

如果你从这个源表中执行select *,你有一个名为campnofacility_id的列:

select st.* from source_table st;

-- Resulting table:
-- +--+----------------+-----------+------+
-- |ID|OBSERVATION_DATE|FACILITY_ID|CAMPNO|
-- +--+----------------+-----------+------+
-- |1 |01/01/2020      |2          |23    |
-- |2 |02/01/2020      |3          |44    |
-- |3 |03/01/2020      |1          |123   |
-- |4 |04/01/2020      |1          |2233  |
-- +--+----------------+-----------+------+

但是一旦你在campnofacility_id 字段上unpivot 表,那么列名变成行并且你不能再select campno, facility_id。您还需要确保要取消透视的列的数据类型相同(因此是子查询):

select *
from (
    select
        id,
        observation_date,
        facility_id,
        campno::varchar as campno
    from source_table) unpivot ( val_col for name_col in (facility_id, campno) );

-- Resulting table:
-- +--+----------------+-----------+-------+
-- |ID|OBSERVATION_DATE|NAME_COL   |VAL_COL|
-- +--+----------------+-----------+-------+
-- |1 |01/01/2020      |FACILITY_ID|2      |
-- |1 |01/01/2020      |CAMPNO     |23     |
-- |2 |02/01/2020      |FACILITY_ID|3      |
-- |2 |02/01/2020      |CAMPNO     |44     |
-- |3 |03/01/2020      |FACILITY_ID|1      |
-- |3 |03/01/2020      |CAMPNO     |123    |
-- |4 |04/01/2020      |FACILITY_ID|1      |
-- |4 |04/01/2020      |CAMPNO     |2233   |
-- +--+----------------+-----------+-------+

看到上面没有名为campnofacility_id 的列吗?它们已被转为行,不再是列...

我认为(但不确定)您可能正在寻找的是:

select
    id,
    observation_date,
    name_col,
    val_col,
    'ONA',
    md5(concat_ws('', id, name_col, val_col, observation_date)),
    current_timestamp()
from (
    select
        id,
        to_date(observation_date, 'DD/MM/YYYY') as observation_date,
        facility_id::varchar                    as facility_id,
        campno::varchar                         as campno
    from source_table
) unpivot ( val_col for name_col in (facility_id, campno) )

-- Resulting table:
-- +--+----------------+-----------+-------+-----+----------------------------------------------------------------+------------------------------------+
-- |ID|OBSERVATION_DATE|NAME_COL   |VAL_COL|'ONA'|MD5(MD5(CONCAT_WS('', ID, NAME_COL, VAL_COL, OBSERVATION_DATE)))|CURRENT_TIMESTAMP()                 |
-- +--+----------------+-----------+-------+-----+----------------------------------------------------------------+------------------------------------+
-- |1 |2020-01-01      |FACILITY_ID|2      |ONA  |19baf986df81f1818afae848cd14fc87                                |2021-03-01 09:59:45.919000000 -08:00|
-- |1 |2020-01-01      |CAMPNO     |23     |ONA  |1fcb518697772362a0dabcba7aacfa8a                                |2021-03-01 09:59:45.919000000 -08:00|
-- |2 |2020-01-02      |FACILITY_ID|3      |ONA  |60a82dbc3d1b78d09519fc50b26026cd                                |2021-03-01 09:59:45.919000000 -08:00|
-- |2 |2020-01-02      |CAMPNO     |44     |ONA  |cb03dc5d1df4e2548f26284c5ff339c2                                |2021-03-01 09:59:45.919000000 -08:00|
-- |3 |2020-01-03      |FACILITY_ID|1      |ONA  |fe0dd77e601f6f3bac4cde8da537eb3d                                |2021-03-01 09:59:45.919000000 -08:00|
-- |3 |2020-01-03      |CAMPNO     |123    |ONA  |95604e260fe1a69bc54100b08fee6d87                                |2021-03-01 09:59:45.919000000 -08:00|
-- |4 |2020-01-04      |FACILITY_ID|1      |ONA  |a94029663591b1c942e9f3be1467e04f                                |2021-03-01 09:59:45.919000000 -08:00|
-- |4 |2020-01-04      |CAMPNO     |2233   |ONA  |1d90ae0854a9042bf44906511e90ced8                                |2021-03-01 09:59:45.919000000 -08:00|
-- +--+----------------+-----------+-------+-----+----------------------------------------------------------------+------------------------------------+

这对 md5(md5()) 毫无意义,我想我在你的另一篇文章中看到过,所以不知道你为什么这样做。

【讨论】:

我明天试试。对于 md5,外键是散列的。 Amd 对于这个 sat 表,它的主键没有用,所以我们把它作为已经散列的外键的散列。我们计划在以后的数据模型更新中将其替换为散列序列。 如果字段是动态的怎么办?如何在不知道我们拥有哪些字段的情况下将所有字段转换为 varchar? 我评论了您询问动态字段编号的另一篇文章。如果您不知道需要取消透视多少列,则需要使用存储过程来执行此操作。 我正在使用一个程序。但是我怎样才能将它们全部转换为 varchar ?我知道其中大部分是日期和数字,因为我们正在收集汇总数据。 您可能不得不将其作为一个新问题提出来,因为您要在其中显示存储的 proc 代码,因为我很难理解您在使用 proc 时遇到了什么问题

以上是关于当 unpivot 未检测到具有不同类型的字段时,雪花如何转换选择查询的所有字段?的主要内容,如果未能解决你的问题,请参考以下文章

交叉应用与 UNPIVOT

“未检测到侦听器”验证错误 Mongoose 和 Mocha

当数据集变大时“未检测到 g++”,GPU 中的矩阵大小是不是有限制?

不同类型在 CIL 中具有相同的签名

PIVOT、UNPIVOT 转换行与列

SQLpivot(行转列)unpivot(列转行)apply