如何跟踪 Google Cloud 公共数据集的变化?
Posted
技术标签:
【中文标题】如何跟踪 Google Cloud 公共数据集的变化?【英文标题】:How to track changes in Google Cloud public datasets? 【发布时间】:2021-01-15 12:46:15 【问题描述】:谷歌云服务在其云存储服务中有一堆public datasets。我想跟踪其中一些公共数据集的更新/添加。 IE。在将新文件添加到公共数据桶时创建某种 webhook。
我读到了 google pubsub notifications,它可以创建在存储桶上推送更改通知的 pubsub 主题。
但是,我无法确定此类主题是否已存在于我可以订阅的公共数据集中,或者如何基于公共数据集存储桶创建此类主题。
是否有任何方法可以跟踪公共数据集的更改,可能使用 pubsub?
【问题讨论】:
【参考方案1】:您可以尝试列出对公共数据集中每个单独存储桶执行的更改。例如,数据集Landsat data
的存储桶位置为 gs://gcp-public-data-landsat
。正如本官方文档here 中所阐明的,您可以使用命令gsutil notification watchbucket
来查看存储桶。
使用此命令及其参数,您应该能够设置要跟踪更新的存储桶以及将这些数据发送到何处。监视存储桶 gcp-public-data-landsat
的更改并将通知发送到在 example.com 上运行的应用程序服务器的命令示例:
gsutil notification watchbucket https://example.com/notify gs://gcp-public-data-landsat
关于命令notification
的更多信息可以在here找到。
我建议您尝试使用它,因为它似乎是可用的选项,因为没有任何预设或配置来观看这些数据集。
【讨论】:
以上是关于如何跟踪 Google Cloud 公共数据集的变化?的主要内容,如果未能解决你的问题,请参考以下文章
Google BigQuery 公共 ngram 数据集的格式?
如何在使用 javascript fetch 函数时设置公共 Google Cloud Storage 存储桶的 CORS 以避免错误?