什么是数据块火花增量表?他们是不是还存储特定会话的数据以及如何查看这些增量表及其结构

Posted

技术标签:

【中文标题】什么是数据块火花增量表?他们是不是还存储特定会话的数据以及如何查看这些增量表及其结构【英文标题】:What are databricks spark delta tables? Does they also stores data for a specific session and how can I view these delta tables and their structure什么是数据块火花增量表?他们是否还存储特定会话的数据以及如何查看这些增量表及其结构 【发布时间】:2018-08-20 10:46:35 【问题描述】:

spark delta 表的用途是什么?他们是打算永久存储数据还是只保留处理数据直到会话结束。如何在 spark 集群中查看它们以及它们所属的数据库。

【问题讨论】:

【参考方案1】:

spark delta 表的用途是什么?

主要目标是在多集群设置中启用单表跨国写入。这是通过保留事务日志来实现的(这与典型数据库系统中的仅附加表非常相似)。

他们是打算永久存储数据还是只保留处理数据直到会话结束。

存在持久性,并且根据定义在会话范围内。

。如何在 spark cluster 和什么数据库中查看它们

与 Spark 中的任何其他表相同。没有特定于任何数据库,并使用delta格式编写。

【讨论】:

所以您提到“它们是持久的,并且根据定义在整个会话范围内”,您能否进一步解释一下。所以我想知道的是例如有人设置了一些增量表,如果我尝试从我自己的集群中访问这些增量表,它们不会显示任何数据。那么我是否需要再次运行整个转换并需要将数据加载到增量表中?并且再次加载数据会造成任何影响吗?

以上是关于什么是数据块火花增量表?他们是不是还存储特定会话的数据以及如何查看这些增量表及其结构的主要内容,如果未能解决你的问题,请参考以下文章

在数据块中加载增量表特定分区的最佳实践是啥?

Laravel:注销特定用户

火花数据框保存到带有自动增量列的 SQL 表

如何使用替换 Where 子句实现以下火花行为

通过火花数据框读取 S3 文件时,胶水书签不起作用

蜂巢分区表上的火花行为