从 Apache Zeppelin 对 AWS Athena 运行时,SQL 查询将永远运行

Posted

技术标签:

【中文标题】从 Apache Zeppelin 对 AWS Athena 运行时,SQL 查询将永远运行【英文标题】:SQL query runs forever when running from Apache Zeppelin against AWS Athena 【发布时间】:2020-02-24 12:16:48 【问题描述】:

我创建了一个 zeppelin 'athena' 解释器(基于 JDBC)。

我有一个非常简单的表,名为“zeppelin_test”(它只包含 3 条记录)

该表包括 2 列:

名称(字符串)

年龄(整数)

当我从 Athena UI 运行下面的查询时,我会在大约 2 秒内得到结果

SELECT name,age FROM "default"."zeppelin_test" limit 10;

当我从 Zeppelin UI 运行下面的查询时,它会永远运行。

我知道 Zeppelin 能够连接到 Athena,因为如果我使用不存在的表,我会收到 JDBC 错误。

我知道查询运行没有问题,因为带有结果的 csv 文件是在“default.s3_staging_dir”下创建的。

有什么想法吗?

【问题讨论】:

【参考方案1】:

由于您收到错误查询的错误 - 我相信 zeppelin 可以连接到 Athena。成功查询运行后,数据将保存在 S3 中。我相信那里的问题 - 请检查您是否将“default.s3_staging_dir”配置为具有写访问权限的目录

【讨论】:

正如我在帖子中所说 - 我确信查询运行没有问题,因为我看到在 s3 生成的 csv 文件(查询输出)

以上是关于从 Apache Zeppelin 对 AWS Athena 运行时,SQL 查询将永远运行的主要内容,如果未能解决你的问题,请参考以下文章

如何在现有的 Apache Spark 独立集群上安装 Apache Zeppelin

运行 Pyspark 脚本时的 Zeppelin 错误

AWS EMR:Zeppelin 从 python 2.7 获取 numpy 版本而不是更高版本

如何为 zeppelin 用户授予正确的权限

如何:Zeppelin + boto3 + AWS 凭证

Apache Zeppelin - 如何在 Apache Zeppelin 中使用 Helium 框架