如何进行 bigquery 传输:数据集投影

Posted

技术标签:

【中文标题】如何进行 bigquery 传输:数据集投影【英文标题】:how to bigquery transfers: dataset projection 【发布时间】:2020-04-06 09:09:46 【问题描述】:

Google 似乎在 BigQuery 的数据传输:数据投影上开放了一项新的(测试版)功能。

看起来我们可以将所有带有数据采样的表复制到另一个数据集。

遗憾的是,缺乏关于如何将表格样本从一个数据集传输到另一个数据集的文档。在源的定义中,询问了过滤器,但不知道如何填写(见下面的截图)。 “过滤器输入”旁边的问号提示没有帮助,因为它说:“在 BigQuery 中项目数据集时使用过滤器获取数据集片段。”

令人困惑的是,源数据集中有许多表,因此看起来不像在 SQL 中那样编写特定于表的过滤器。相反,我期待类似的东西:好的,取 20% 的行,具体取决于...的可能字段上的数据分布(希望如此)

有人知道如何在这里编写过滤器吗?

【问题讨论】:

如果您单击配置顶部的链接This is the Dataset Projection configuration. Learn more ,您将看到详细解释这一点的文档。我不确定我是否可以直接分享它,因为它仍然显示为 Alpha。 我怎么没看到?谢谢你。让我检查一下。我会在这里更新 【参考方案1】:

感谢“Ben P”的指导。我认为仍然不可能从数据中获得有代表性的样本。它是一个带有一些扩展正则表达式的 SELECT 查询。

我认为因为是测试版,所以不适合在这里分享文档。但是文档显示了如何根据通常的 SELECT/WHERE 过滤器和谓词值来获取一些列和行。

【讨论】:

以上是关于如何进行 bigquery 传输:数据集投影的主要内容,如果未能解决你的问题,请参考以下文章

Bigquery crashlytics 数据集计划间隔

Firebase 到 Bigquery 未知数据集生成问题

如何检查 BigQuery 中是不是存在数据集?

如何在 BigQuery 中备份数据集?

BigQuery - 最大数据集大小

Kaggle *** BigQuery 数据集的更新频率如何?