查找雅典娜查询结果的来源

Posted

技术标签:

【中文标题】查找雅典娜查询结果的来源【英文标题】:Find the source of athena query result 【发布时间】:2019-04-29 10:39:14 【问题描述】:

我们在 S3 中存储了数千个文件。这些文件暴露给 athena,以便我们可以查询它们。在进行调试时,我发现 athena 在查询特定的 id 时显示多个空白行。鉴于有数千个文件,我不确定这些数据来自哪里。

有没有一种方法可以让我在 athena 结果中查看相应行的源文件?

【问题讨论】:

试试select *, "$path" from your_table where ...。这适用于 Presto,因此也适用于 Athena。 太棒了。请将此作为答案分享,以便我接受。 这样的功能还有吗?我正在查看 presto documentaiton,找不到任何有用的东西。 docs.aws.amazon.com/redshift/latest/dg/… @Patrick 这是 Redshift 文档的链接。问题是关于雅典娜的。 【参考方案1】:

Presto Hive 连接器暴露了一个隐藏列:"$path" 此列公开了已读取特定行的文件的路径。

注意:列名实际上是$path,但是你需要"——在SQL中引用它。这是因为 $ 在标识符中是非法的。

【讨论】:

以上是关于查找雅典娜查询结果的来源的主要内容,如果未能解决你的问题,请参考以下文章

在aws athena中按列列出聚合结果?

使用 LIMIT 查找 MySQL 中结果总数的教义查询

需要帮助查找数字在查询结果中重复的次数

根据搜索查询查找结果

向猫鼬查找查询结果添加字段

向猫鼬查找查询结果添加字段