使用 redshift 从数据库中损坏的 json 中提取特定数据

Posted

技术标签:

【中文标题】使用 redshift 从数据库中损坏的 json 中提取特定数据【英文标题】:pull specific data from broken json in database, using redshift 【发布时间】:2021-04-22 07:22:44 【问题描述】:

所以我有一个表源,其中 1 个重要列是损坏的 json。以下是数据样本

event_properties
"\"source\":\"barcode\",\"voucher_id\":684883298,\"voucher_name\":\"voucher 1\""
"\"entryPoint\":\"voucher_selection-popup\",\"entry_point\":\"voucher_selection-popup\",\"source\":\"mobile\",\"voucher_id\":712001960,\"voucher_name\":\"voucher 2\""
"\"source\":\"barcode\",\"voucher_id\":638584138,\"voucher_name\":\"voucher 1\""
"\"source\":\"QR Static\",\"voucher_id\":642124374,\"voucher_name\":\"voucher 3\""


每行代表 1 条记录。有没有办法提取凭证 id 和凭证名称信息,因为数据中有不止一种变化。

所以目标是像这样提取凭证 ID 和凭证名称

voucher_id   voucher_name
684883298    voucher 1
712001960    voucher 2
638584138    voucher 1
642124374    voucher 3

我正在使用红移

【问题讨论】:

【参考方案1】:

你可以试试这个:

    首先使用is_valid_json() 验证 JSON 是否有效。 如果不是,请检查使其有效所需的条件,在这种情况下,通过删除前导和尾随 "。 在这种情况下,使用trim() 删除多余的" 字符。 使用json_extract_path_text() 获取值。

SQL:

with json_data as (
select '"\"source\":\"barcode\",\"voucher_id\":684883298,\"voucher_name\":\"voucher 1\""'::text as j union
select '"\"entryPoint\":\"voucher_selection-popup\",\"entry_point\":\"voucher_selection-popup\",\"source\":\"mobile\",\"voucher_id\":712001960,\"voucher_name\":\"voucher 2\""'::text union
select '"\"source\":\"barcode\",\"voucher_id\":638584138,\"voucher_name\":\"voucher 1\""'::text union
select '"\"source\":\"QR Static\",\"voucher_id\":642124374,\"voucher_name\":\"voucher 3\""'::text)
select j,
       is_valid_json(j),
       trim('"' from j) as j_trimmed,
       is_valid_json(j_trimmed),
       json_extract_path_text(j_trimmed, 'voucher_id') as voucher_id
from json_data;

产生voucher_id 值。然后用同样的方法获取其他键的值。

【讨论】:

以上是关于使用 redshift 从数据库中损坏的 json 中提取特定数据的主要内容,如果未能解决你的问题,请参考以下文章

使用 COPY 命令将数据从 JSON 文件复制到 Redshift

Redshift - 使用 Python UDF 从 JSON 中提取根密钥

Redshift UNLOAD COPY 失败数据损坏 stl_load_errors MAXFILESIZE

如何使用 Redshift 从 JSON 数组列中获取值?

从 Amazon Redshift 中的 JSON 字段中提取数据

从 Amazon Redshift 中的 json 数组中提取特定键