Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery
Posted
技术标签:
【中文标题】Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery【英文标题】:Google Cloud Data Fusion, How can I load many tables to bigquery in one pipeline 【发布时间】:2021-07-13 04:20:28 【问题描述】:我想通过使用云数据融合加载 aws rds mysql 服务器中的许多表。每个表存储超过约 1gb。我还找到了名为“多数据库表”的插件来加载多表。但我失败了。基本上,当我使用数据库源时,我可以检查表的架构。但是,在多个数据库表中,我找不到如何检查表的架构。我怎样才能使用这个插件?或者有没有其他方法可以在数据融合服务中加载许多表?
我的管道设置如下。
【问题讨论】:
您能重新表述一下您的问题吗?如果我理解正确,您希望将 AWS RDS 表加载到 GCP BigQuery。你得到了什么错误?你有网络限制吗?您是否允许 GCP AWS 连接(您是否使用 ***)?你能提供你所遵循的确切步骤吗?@PjoterS
感谢您的评论。正是我想将我的 RDS mysql 中的许多表迁移到 GCP 存储或 bigquery。我找到了一种在一个管道中迁移一个表的方法,但我不知道如何在一个管道中迁移多个表。但是,我知道使用多个数据库表来实现这一点。但是,我不知道如何使用它。总之,我想知道如何使用多数据库表源将许多表迁移到谷歌云存储或bigquery
This 是我遇到的同样问题。
我想知道您是否确实需要使用管道,或者您只需要将您的数据库从 AWS 迁移到 GCP。例如here,您有使用.CSV
的示例,但是如果您需要管道,您是否看到Muhammad Izzuddin
教程:构建从AWS RDS 到Google BigQuery 的简单批处理数据管道-Part 1: Setting UP AWS Data pipeline
和Part 2: Setting up BigQuery Transfer Service and Scheduled Query。据我了解,这应该可以解决您的问题。如果没有,您能否详细说明您的具体情况?
【参考方案1】:
我发布此 Community Wiki
是因为 OP 没有提供足够的详细信息来重现,但以下信息可能会对某人有所帮助。
使用Cloud Data Fusion 获取数据的方法很少,您可以根据需要使用pipeline
、plugin
、driver
和其他一些方法。
在互联网上,您可以找到两个描述得非常详细的指南和示例。
如果您想通过 GCP 产品找到有关 Cloud Data Fusion
的一些信息,您应该阅读 Bahadir Bulut
指南 - How I used Google Cloud Data Fusion to create a data warehouse - Part 1 和 Part 2。此外,Data Fusion
允许使用 150+ 预配置的 connectors and transformations,如 Amazons S3、SQS 等 Azure 服务等等。
另一个很好的描述(我想这将有助于 OP)是配置 Amazon
和 GCP
资源并使用 pipelines
。本指南为Building a Simple Batch Data Pipeline from AWS RDS to Google BigQuery — Part 1: Setting UP AWS Data pipeline,第二部分为Building a Simple Batch Data Pipeline from AWS RDS to Google BigQuery — Part 2: Setting up BigQuery Transfer Service and Scheduled Query.。简而言之,本指南描述了 2 个主要步骤:
-
使用
AWS data pipeline
服务从MYSQL RDS
提取数据并带入S3
来自S3
,使用BigqQuery transfer service
将文件带入Bigquery
。
【讨论】:
以上是关于Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery的主要内容,如果未能解决你的问题,请参考以下文章
无法从 Data Fusion 连接 Cloud SQL mySql 实例。异常“无法创建套接字工厂 'com.google.cloud.sql.mysql.SocketFactory”
Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery
无法从 Data Fusion 连接 Cloud SQL mySql / postgreSQL 实例
Google Cloud 发起“Data Cloud Alliance”新联盟
无法在 Spring Data Cloud Spanner 中将 java.sql.Timestamp 转换为 com.google.cloud.Timestamp