Bigquery Intraday 表覆盖过程

Posted

技术标签:

【中文标题】Bigquery Intraday 表覆盖过程【英文标题】:Bigquery Intraday table overwrite process 【发布时间】:2021-06-16 05:40:07 【问题描述】:

我想使用盘中表,根据文档,它们大约会被覆盖。一天 3 次。

我想问他们是否只被新数据或直到时间数据覆盖。

示例:今天的盘中表是在 UTC 时间上午 8 点创建的。 考虑到 id 是唯一的。

它有 id 的数据:1、2、3

当它被覆盖时,假设在 16 UTC 和新的 uds 4 和 5 到那时。

它会有数据:1、2、3、4、5 还是只有 3、4、5?

Bigquery docs for columns

fullVisitorId、hitnumber 和 time 组合在所有行中是否都是唯一的?

【问题讨论】:

【参考方案1】:

是的,fullVisitorId、hitnumber 和时间组合在所有行中都是唯一的。

什么是盘中(或实时)表格?

日内表格代表当天的 Google Analytics(分析)数据。它们每天追加 3 次,数据滞后约 2 小时,并在每日会话表被提取到 BigQuery 时替换为新表。或者,大约每 15 分钟附加一次实时表。这两个表都允许报告当天的分析数据。

我们如何使用日内表格?

因为当日表仅在向 BigQuery 提取新的每日表时才会被覆盖,它们将继续追加,同时还会存储昨天会话的数据。我们可以通过将逻辑整合到我们的数据处理和报告工作流程中来解决昨天丢失的数据。如果日表尚不可用,该逻辑将执行数据处理查询以从日内表中提取。

【讨论】:

以上是关于Bigquery Intraday 表覆盖过程的主要内容,如果未能解决你的问题,请参考以下文章

BigQuery 中的事件表是不是根据 event_timestamp 或服务器日志时间填充?

在 Power BI 中使用 BigQuery 重复/嵌套字段

BigQuery:如何使用 bigquery.Client().copy_table 方法覆盖表

使用旧表架构恢复覆盖的 Bigquery 表

如何覆盖 bigquery 现有表中的列值

Bigquery BI 引擎是不是适用于分区表