使用 event_name 列启用集群,以便将数据从 Firebase Analytics 流式传输到 Bigquery

Posted

技术标签:

【中文标题】使用 event_name 列启用集群,以便将数据从 Firebase Analytics 流式传输到 Bigquery【英文标题】:Enable clustering with event_name column for data streamed into Big Query from Firebase Analytics 【发布时间】:2020-04-30 17:15:21 【问题描述】:

如何为由 Firebase Analytics 流式传输到 BigQuery 的数据围绕 event_name 列启用集群?

由于我们的大多数查询都将 event_name 作为过滤器,因此我们的查询性能和成本可以提高:“Clustering can improve the performance of certain types of queries such as queries that use filter clauses”。

我们将非常感谢您在这方面的任何帮助。

【问题讨论】:

【参考方案1】:

您将需要重新实现这些表,这样您就可以获得一个带有event_name 的非嵌套、非重复列。

所以请务必执行以下操作:

CREATE OR REPLACE TABLE `dataset.new_table`
PARTITION BY DATE(timestamp)
CLUSTER BY event_name
AS

SELECT *, event_name, timestamp
# transform existing table to have event_name as a single column

您每天有多少数据?这也很重要。

【讨论】:

>你一天有多少数据? 4-6 GB 数据集是在 Firebase 链接到 BigQuery 时自动创建的,具有以下结构:ibb.co/Tqb02Fx 重新实现后,是否会为 Firebase 完成的后续数据流/加载维护集群?谢谢 每天集群的数量非常可观。您需要设置一个管道将数据从 a 移动到 b。

以上是关于使用 event_name 列启用集群,以便将数据从 Firebase Analytics 流式传输到 Bigquery的主要内容,如果未能解决你的问题,请参考以下文章

使用 BigQuery Firebase 数据在用户执​​行 event_name = 'app_remove' 之前查询事件

如何将集群标签列添加回原始数据框-python,用于监督学习

使用现有数据在Redshift群集上启用加密

tomcat6.0怎么修改配置文件server.xml以便启用Ajp13

使用带有spring数据缓存的redis时如何启用分布式/集群缓存

为啥 SQL Server 不允许我启用混合身份验证模式,以便我可以使用 sa 用户将角色分配给其他用户?