当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它​​会保存在哪里?

Posted

技术标签:

【中文标题】当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它​​会保存在哪里?【英文标题】:When I save a PySpark DataFrame with saveAsTable in AWS EMR Studio, where does it get saved? 【发布时间】:2021-08-24 13:18:14 【问题描述】:

我可以使用df.write.saveAsTable('tableName') 保存数据框并使用spark.table('tableName') 读取后续表格,但我不确定表格实际保存在哪里?

【问题讨论】:

您可能可以检查表的定义以查看数据的存储位置。 【参考方案1】:

它存储在数据库的默认位置下。

您可以通过运行以下 spark sql 查询来获取位置:

spark.sql("DESCRIBE TABLE EXTENDED tableName")

您可以在# Detailed Table Information 部分下找到Location。 请在下面找到示例输出:

【讨论】:

输出结果如何?或许你能给出一个想法? 我在答案中添加了一个示例

以上是关于当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它​​会保存在哪里?的主要内容,如果未能解决你的问题,请参考以下文章

AWS EMR v5.32.0 引导 Numpy 问题

AWS EMR Spark 未使用自定义 Jar 加载 MainClass

我在 AWS 中有一个现有的 EMR 集群。我想从气流运行 dag 到现有的 aws 集群

结合 AWS EMR 输出

AWS Data Pipeline 在 emr 活动步骤部分中转义逗号

打开/关闭 AWS EMR 集群