如何跟踪 Google Cloud 公共数据集的变化?

Posted

技术标签:

【中文标题】如何跟踪 Google Cloud 公共数据集的变化?【英文标题】:How to track changes in Google Cloud public datasets? 【发布时间】:2021-01-15 12:46:15 【问题描述】:

谷歌云服务在其云存储服务中有一堆public datasets。我想跟踪其中一些公共数据集的更新/添加。 IE。在将新文件添加到公共数据桶时创建某种 webhook。

我读到了 google pubsub notifications,它可以创建在存储桶上推送更改通知的 pubsub 主题。

但是,我无法确定此类主题是否已存在于我可以订阅的公共数据集中,或者如何基于公共数据集存储桶创建此类主题。

是否有任何方法可以跟踪公共数据集的更改,可能使用 pubsub?

【问题讨论】:

【参考方案1】:

您可以尝试列出对公共数据集中每个单独存储桶执行的更改。例如,数据集Landsat data 的存储桶位置为 gs://gcp-public-data-landsat。正如本官方文档here 中所阐明的,您可以使用命令gsutil notification watchbucket 来查看存储桶。

使用此命令及其参数,您应该能够设置要跟踪更新的存储桶以及将这些数据发送到何处。监视存储桶 gcp-public-data-landsat 的更改并将通知发送到在 example.com 上运行的应用程序服务器的命令示例:

gsutil notification watchbucket https://example.com/notify gs://gcp-public-data-landsat

关于命令notification的更多信息可以在here找到。

我建议您尝试使用它,因为它似乎是可用的选项,因为没有任何预设或配置来观看这些数据集。

【讨论】:

以上是关于如何跟踪 Google Cloud 公共数据集的变化?的主要内容,如果未能解决你的问题,请参考以下文章

访问 BigQuery 上的公共数据集

Google BigQuery 公共 ngram 数据集的格式?

如何使用 google cloud-trace 请求跟踪

如何在使用 javascript fetch 函数时设置公共 Google Cloud Storage 存储桶的 CORS 以避免错误?

如何将 OpenTelemetry Java 代理生成的跟踪导出到 Google Cloud Trace?

Google Cloud DataStore 说明