从 Google 云存储中移动/流式传输数据
Posted
技术标签:
【中文标题】从 Google 云存储中移动/流式传输数据【英文标题】:Moving/Streaming data out of Google cloud storage 【发布时间】:2018-12-24 08:17:39 【问题描述】:的最佳方式是什么?此外,Dataflow 是否提供将数据从 Google 云存储流式传输到 GCP 外部的任何功能?
【问题讨论】:
【参考方案1】:将数据移出 Google 云存储的最佳方法可能是使用 gsutil 工具,或者您可以使用它们为简单起见提供的 python 和 boto 插件,您可以在此链接中找到详细信息。 https://cloud.google.com/storage/docs/streaming。 至于问题的第二部分,Kafka 现在可以连接到 Cloud Dataflow,我认为您可以使用它从 GCP 中流式传输数据。 Apache Beam 从 2016 年开始支持 KafkaIO。我想下面的链接会让你很高兴。
https://cloud.google.com/blog/big-data/2016/09/apache-kafka-for-gcp-users-connectors-for-pubsub-dataflow-and-bigquery
https://github.com/apache/beam/tree/master/sdks/java/io/kafka
【讨论】:
我们可以使用在 GCP 中运行的 Spring 应用程序将数据移出 Google Cloud 存储吗? 你能告诉我spring应用程序在做什么吗? 如果我正确理解您的问题,则可以部署 spring 应用程序,并且可以像在 GCP 中的正常情况下那样部署。如果您想使用它来捆绑和使用 hadoop 的组件,那么您可以选择 Cloud Dataproc,在任何其他情况下,它都可以部署在计算实例中,并期望得到与我们在任何其他分布式环境中相同的结果。跨度> 用例 - 1 - 我正在尝试使用 Cloud Data flow 从 Pub-Sub 流式传输数据,然后使用 JDBCIO 将数据写入本地数据库或 TextIO 将文件写入本地服务器.请告诉我是否可行? 是的,这是非常可行的。您将需要本地集群上的谷歌云 SDK。以上是关于从 Google 云存储中移动/流式传输数据的主要内容,如果未能解决你的问题,请参考以下文章