Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳
Posted
技术标签:
【中文标题】Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳【英文标题】:Spark SQL query to get the last updated timestamp of a Athena table stored as CSV in AWS S3 【发布时间】:2021-10-03 18:39:49 【问题描述】:是否可以使用 Spark SQL 查询获取以 CSV 文件格式存储在 S3 位置的 Athena 表的最后更新时间戳。
如果是,请有人提供更多信息。
【问题讨论】:
【参考方案1】:有多种方法可以做到这一点。
-
使用 athena jdbc 驱动程序并在格式为 jdbc 的情况下执行 spark 读取。在此阅读中,您将提供“从表中选择最大值(时间戳)”查询。然后作为下一步,只需将 spark 数据帧保存到 s3 fcro
您可以完全跳过 jdbc 读取,只需使用 boto3 运行上述查询。它将是 start_query_execution 和 get_query_results 的组合。然后,您也可以将其保存到 s3。
【讨论】:
以上是关于Spark SQL 查询以获取在 AWS S3 中存储为 CSV 的 Athena 表的最后更新时间戳的主要内容,如果未能解决你的问题,请参考以下文章