Apache Beam/Google Dataflow - 将数据从 Google Datastore 导出到 Cloud Storage 中的文件

Posted

技术标签:

【中文标题】Apache Beam/Google Dataflow - 将数据从 Google Datastore 导出到 Cloud Storage 中的文件【英文标题】:Apache Beam/Google Dataflow - Exporting Data from Google Datastore to File in Cloud Storage 【发布时间】:2019-05-12 18:52:12 【问题描述】:

我需要为用户请求创建文件报告。每个用户选择文件报告的过滤器,我的应用程序应该在云存储中生成一个文件并发送一个带有生成文件链接的通知。

这是应用程序工作流程:

    客户端选择过滤器并请求报告文件 应用程序收到此请求并在数据存储中创建一条记录,其中包含有关用户选择的过滤器的数据 将来自新记录的数据存储区密钥 URL 安全字符串存储在 pubsub 中。 Dataflow 管道读取存储在 PubSub 中的密钥。 在谷歌云存储中生成文件 用存储文件url通知客户端

是否可以为每个 pubsub 入口创建一个文件?

如何创建具有自定义名称的文件?

这种架构正确吗?

【问题讨论】:

【参考方案1】:

您的用例听起来似乎比云数据存储更适用于谷歌云存储。谷歌云存储适用于不透明的类似文件的数据块,并提供了一种在文件更新https://cloud.google.com/storage/docs/pubsub-notifications 时接收 pubsub 通知的方法。

但是,在这种情况下,您为什么要使用 pubsub 和 datastore 的间接寻址有点不清楚。处理客户端请求的服务器可以直接调用谷歌云存储api吗?

【讨论】:

以上是关于Apache Beam/Google Dataflow - 将数据从 Google Datastore 导出到 Cloud Storage 中的文件的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Apache Beam/Google 数据流中将大窗口缩减为小窗口?

Modelsim初级使用教程

apache的优化

Linux启动apache失败怎么办

Apache 服务

我怎么在LINUX下查看apache日志