Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery

Posted

技术标签:

【中文标题】Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery【英文标题】:Google Cloud Data Fusion, How can I load many tables to bigquery in one pipeline 【发布时间】:2021-07-13 04:20:28 【问题描述】:

我想通过使用云数据融合加载 aws rds mysql 服务器中的许多表。每个表存储超过约 1gb。我还找到了名为“多数据库表”的插件来加载多表。但我失败了。基本上,当我使用数据库源时,我可以检查表的架构。但是,在多个数据库表中,我找不到如何检查表的架构。我怎样才能使用这个插件?或者有没有其他方法可以在数据融合服务中加载许多表?

我的管道设置如下。

【问题讨论】:

您能重新表述一下您的问题吗?如果我理解正确,您希望将 AWS RDS 表加载到 GCP BigQuery。你得到了什么错误?你有网络限制吗?您是否允许 GCP AWS 连接(您是否使用 ***)?你能提供你所遵循的确切步骤吗? @PjoterS 感谢您的评论。正是我想将我的 RDS mysql 中的许多表迁移到 GCP 存储或 bigquery。我找到了一种在一个管道中迁移一个表的方法,但我不知道如何在一个管道中迁移多个表。但是,我知道使用多个数据库表来实现这一点。但是,我不知道如何使用它。总之,我想知道如何使用多数据库表源将许多表迁移到谷歌云存储或bigquery This 是我遇到的同样问题。 我想知道您是否确实需要使用管道,或者您只需要将您的数据库从 AWS 迁移到 GCP。例如here,您有使用.CSV 的示例,但是如果您需要管道,您是否看到Muhammad Izzuddin 教程:构建从AWS RDS 到Google BigQuery 的简单批处理数据管道-Part 1: Setting UP AWS Data pipeline 和Part 2: Setting up BigQuery Transfer Service and Scheduled Query。据我了解,这应该可以解决您的问题。如果没有,您能否详细说明您的具体情况? 【参考方案1】:

我发布此 Community Wiki 是因为 OP 没有提供足够的详细信息来重现,但以下信息可能会对某人有所帮助。

使用Cloud Data Fusion 获取数据的方法很少,您可以根据需要使用pipelineplugindriver 和其他一些方法。

在互联网上,您可以找到两个描述得非常详细的指南和示例。

如果您想通过 GCP 产品找到有关 Cloud Data Fusion 的一些信息,您应该阅读 Bahadir Bulut 指南 - How I used Google Cloud Data Fusion to create a data warehouse - Part 1 和 Part 2。此外,Data Fusion 允许使用 150+ 预配置的 connectors and transformations,如 Amazons S3、SQS 等 Azure 服务等等。

另一个很好的描述(我想这将有助于 OP)是配置 AmazonGCP 资源并使用 pipelines。本指南为Building a Simple Batch Data Pipeline from AWS RDS to Google BigQuery — Part 1: Setting UP AWS Data pipeline,第二部分为Building a Simple Batch Data Pipeline from AWS RDS to Google BigQuery — Part 2: Setting up BigQuery Transfer Service and Scheduled Query.。简而言之,本指南描述了 2 个主要步骤:

    使用AWS data pipeline服务从MYSQL RDS提取数据并带入S3 来自S3,使用BigqQuery transfer service 将文件带入Bigquery

【讨论】:

以上是关于Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery的主要内容,如果未能解决你的问题,请参考以下文章

无法从 Data Fusion 连接 Cloud SQL mySql 实例。异常“无法创建套接字工厂 'com.google.cloud.sql.mysql.SocketFactory”

Google Cloud Data Fusion,如何在一个管道中将多个表加载到 bigquery

无法从 Data Fusion 连接 Cloud SQL mySql / postgreSQL 实例

Google Cloud 发起“Data Cloud Alliance”新联盟

无法在 Spring Data Cloud Spanner 中将 java.sql.Timestamp 转换为 com.google.cloud.Timestamp

关于 Google Fusion Table 和 Google Maps 的一些问题