如何在 Presto Athena 中将 varchar 转换为数组

Posted

技术标签:

【中文标题】如何在 Presto Athena 中将 varchar 转换为数组【英文标题】:How to convert varchar to array in Presto Athena 【发布时间】:2019-10-03 16:21:38 【问题描述】:

我的数据是VARCHAR 格式。我想拆分这个数组的两个元素,这样我就可以从 JSON 中提取一个键值。

数据格式

[
  
    "skuId": "5bc87ae20d298a283c297ca1",
    "unitPrice": 0,
    "id": "5bc87ae20d298a283c297ca1",
    "quantity": "1"
  ,
  

    "skuId": "182784738484wefhdchs4848",
    "unitPrice": 50,
    "id": "5bc87ae20d298a283c297ca1",
    "quantity": "4"
  ,
]

例如我想从上面的列中提取skuid。 所以我提取后的数据应该是这样的:

1 5bc87ae20d298a283c297ca1
2 182784738484wefhdchs4848

强制转换为数组也不起作用:

SELECT CAST(col AS ARRAY)

给出以下错误:

未知类型:数组

所以我无法取消嵌套数组。

如何在Presto Athena中解决这个问题?

【问题讨论】:

是。你能得到一个解决方案来提取雅典娜的数据吗?我刚刚尝试了以下解决方案,结果出现错误:INVALID_CAST_ARGUMENT: Cannot cast JSON to array(row(skuid varchar)) 【参考方案1】:

您可以使用parsing the value as JSON 的组合,将其强制转换为结构化的SQL 类型(数组/映射/行),并使用UNNEST WITH ORDINALITY 从数组中提取元素作为单独的行。请注意,这仅适用于 JSON 有效负载中的数组元素没有尾随逗号的情况。您的示例有一个,但已从下面的示例中删除。

WITH data(value) AS (VALUES
 '[
    
      "skuId": "5bc87ae20d298a283c297ca1",
      "unitPrice": 0,
      "id": "5bc87ae20d298a283c297ca1",
      "quantity": "1"
    ,
    
      "skuId": "182784738484wefhdchs4848",
      "unitPrice": 50,
      "id": "5bc87ae20d298a283c297ca1",
      "quantity": "4"
    
  ]'
),
parsed(entries) AS (
  SELECT cast(json_parse(value) AS array(row(skuId varchar)))
  FROM data
)
SELECT ordinal, skuId
FROM parsed, UNNEST(entries) WITH ORDINALITY t(skuId, ordinal)

产生:

 ordinal |          skuId
---------+--------------------------
       1 | 5bc87ae20d298a283c297ca1
       2 | 182784738484wefhdchs4848
(2 rows)

【讨论】:

Martin:我试过在aws athena上执行你提供的sn-p。我收到一个错误:INVALID_CAST_ARGUMENT: Cannot cast JSON to array(row(skuid varchar)) AWS Athena 有两个版本,分别映射到 Presto 的特定版本。 Athena 版本 1 使用 Presto 0.172; Athena 版本 2 使用版本 0.217。有关详细信息,请参阅here。请检查您使用的 Athena 版本以及对应版本的 Presto 是否支持此类操作。

以上是关于如何在 Presto Athena 中将 varchar 转换为数组的主要内容,如果未能解决你的问题,请参考以下文章

在 Athena/Presto 中将数组拆分为列

在 Athena/Presto 中将 JSON 转换为 ARRAY<MAP>

如何将表示 EPOCH 时间的整数转换为 Athena (Presto) 中的时间戳?

AWS Athena (Presto) - 如何将时间戳格式化为日期格式?

Presto SQL / Athena:如何从“间隔天到秒”只返回小时、分钟和秒

AWS Athena [Presto] 如何仅接收过去 7 天的数据?