Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳

Posted

技术标签:

【中文标题】Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳【英文标题】:Spark SQL query to get the last updated timestamp of a Athena table stored as CSV in AWS S3 【发布时间】:2021-10-03 18:39:49 【问题描述】:

是否可以使用 Spark SQL 查询获取以 CSV 文件格式存储在 S3 位置的 Athena 表的最后更新时间戳

如果是,请有人提供更多信息。

【问题讨论】:

【参考方案1】:

有多种方法可以做到这一点。

    使用 athena jdbc 驱动程序并在格式为 jdbc 的情况下执行 spark 读取。在此阅读中,您将提供“从表中选择最大值(时间戳)”查询。然后作为下一步,只需将 spark 数据帧保存到 s3 fcro 您可以完全跳过 jdbc 读取,只需使用 boto3 运行上述查询。它将是 start_query_execution 和 get_query_results 的组合。然后,您也可以将其保存到 s3。

【讨论】:

以上是关于Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳的主要内容,如果未能解决你的问题,请参考以下文章

Spark:根据 s3 文件中的字段动态生成查询

spark sql 无法在 S3 中查询镶木地板分区

Spark的S3角色授权?

使用 s3a 在驱动程序和执行程序中获取火花罐

如何使用 AWS RedShift Spectrum 为 S3 存储建模以进行查询

使用 pyspark 将镶木地板文件(在 aws s3 中)存储到 spark 数据框中