Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳

Posted 2023-04-15

技术标签:

【中文标题】Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳【英文标题】：Spark SQL query to get the last updated timestamp of a Athena table stored as CSV in AWS S3 【发布时间】：2021-10-03 18:39:49 【问题描述】：

是否可以使用 Spark SQL 查询获取以 CSV 文件格式存储在 S3 位置的 Athena 表的最后更新时间戳。

如果是，请有人提供更多信息。

【问题讨论】：

【参考方案1】：

有多种方法可以做到这一点。

使用 athena jdbc 驱动程序并在格式为 jdbc 的情况下执行 spark 读取。在此阅读中，您将提供“从表中选择最大值（时间戳）”查询。然后作为下一步，只需将 spark 数据帧保存到 s3 fcro 您可以完全跳过 jdbc 读取，只需使用 boto3 运行上述查询。它将是 start_query_execution 和 get_query_results 的组合。然后，您也可以将其保存到 s3。

【讨论】：

以上是关于Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳的主要内容，如果未能解决你的问题，请参考以下文章

Spark：根据 s3 文件中的字段动态生成查询

spark sql 无法在 S3 中查询镶木地板分区

Spark的S3角色授权？

使用 s3a 在驱动程序和执行程序中获取火花罐

如何使用 AWS RedShift Spectrum 为 S3 存储建模以进行查询

使用 pyspark 将镶木地板文件（在 aws s3 中）存储到 spark 数据框中