当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它会保存在哪里?
Posted
技术标签:
【中文标题】当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它会保存在哪里?【英文标题】:When I save a PySpark DataFrame with saveAsTable in AWS EMR Studio, where does it get saved? 【发布时间】:2021-08-24 13:18:14 【问题描述】:我可以使用df.write.saveAsTable('tableName')
保存数据框并使用spark.table('tableName')
读取后续表格,但我不确定表格实际保存在哪里?
【问题讨论】:
您可能可以检查表的定义以查看数据的存储位置。 【参考方案1】:它存储在数据库的默认位置下。
您可以通过运行以下 spark sql 查询来获取位置:
spark.sql("DESCRIBE TABLE EXTENDED tableName")
您可以在# Detailed Table Information
部分下找到Location
。
请在下面找到示例输出:
【讨论】:
输出结果如何?或许你能给出一个想法? 我在答案中添加了一个示例以上是关于当我在 AWS EMR Studio 中使用 saveAsTable 保存 PySpark DataFrame 时,它会保存在哪里?的主要内容,如果未能解决你的问题,请参考以下文章
AWS EMR Spark 未使用自定义 Jar 加载 MainClass
我在 AWS 中有一个现有的 EMR 集群。我想从气流运行 dag 到现有的 aws 集群