如何在 Presto Athena 中将 varchar 转换为数组
Posted
技术标签:
【中文标题】如何在 Presto Athena 中将 varchar 转换为数组【英文标题】:How to convert varchar to array in Presto Athena 【发布时间】:2019-10-03 16:21:38 【问题描述】:我的数据是VARCHAR
格式。我想拆分这个数组的两个元素,这样我就可以从 JSON 中提取一个键值。
数据格式
[
"skuId": "5bc87ae20d298a283c297ca1",
"unitPrice": 0,
"id": "5bc87ae20d298a283c297ca1",
"quantity": "1"
,
"skuId": "182784738484wefhdchs4848",
"unitPrice": 50,
"id": "5bc87ae20d298a283c297ca1",
"quantity": "4"
,
]
例如我想从上面的列中提取skuid
。
所以我提取后的数据应该是这样的:
1 5bc87ae20d298a283c297ca1
2 182784738484wefhdchs4848
强制转换为数组也不起作用:
SELECT CAST(col AS ARRAY)
给出以下错误:
未知类型:数组
所以我无法取消嵌套数组。
如何在Presto Athena中解决这个问题?
【问题讨论】:
是。你能得到一个解决方案来提取雅典娜的数据吗?我刚刚尝试了以下解决方案,结果出现错误:INVALID_CAST_ARGUMENT: Cannot cast JSON to array(row(skuid varchar))
【参考方案1】:
您可以使用parsing the value as JSON 的组合,将其强制转换为结构化的SQL 类型(数组/映射/行),并使用UNNEST WITH ORDINALITY 从数组中提取元素作为单独的行。请注意,这仅适用于 JSON 有效负载中的数组元素没有尾随逗号的情况。您的示例有一个,但已从下面的示例中删除。
WITH data(value) AS (VALUES
'[
"skuId": "5bc87ae20d298a283c297ca1",
"unitPrice": 0,
"id": "5bc87ae20d298a283c297ca1",
"quantity": "1"
,
"skuId": "182784738484wefhdchs4848",
"unitPrice": 50,
"id": "5bc87ae20d298a283c297ca1",
"quantity": "4"
]'
),
parsed(entries) AS (
SELECT cast(json_parse(value) AS array(row(skuId varchar)))
FROM data
)
SELECT ordinal, skuId
FROM parsed, UNNEST(entries) WITH ORDINALITY t(skuId, ordinal)
产生:
ordinal | skuId
---------+--------------------------
1 | 5bc87ae20d298a283c297ca1
2 | 182784738484wefhdchs4848
(2 rows)
【讨论】:
Martin:我试过在aws athena上执行你提供的sn-p。我收到一个错误:INVALID_CAST_ARGUMENT: Cannot cast JSON to array(row(skuid varchar))
AWS Athena 有两个版本,分别映射到 Presto 的特定版本。 Athena 版本 1 使用 Presto 0.172; Athena 版本 2 使用版本 0.217。有关详细信息,请参阅here。请检查您使用的 Athena 版本以及对应版本的 Presto 是否支持此类操作。以上是关于如何在 Presto Athena 中将 varchar 转换为数组的主要内容,如果未能解决你的问题,请参考以下文章
在 Athena/Presto 中将 JSON 转换为 ARRAY<MAP>
如何将表示 EPOCH 时间的整数转换为 Athena (Presto) 中的时间戳?
AWS Athena (Presto) - 如何将时间戳格式化为日期格式?