MySQL 数据库到 BigQuery 的传输
Posted
技术标签:
【中文标题】MySQL 数据库到 BigQuery 的传输【英文标题】:MySQL database to BigQuery transfer 【发布时间】:2021-02-09 07:47:30 【问题描述】:我想创建连接器(类似于 Kafka-Connect 中的 Debezium)以在 BigQuery 表中反映 mysql 源数据库的每一次更改。
有一个问题 - 源数据库每 10 分钟删除一次并重新创建 - 有些行是相同的,有些是更新的,有些是全新的。所以我不能通过 Debezium 做到这一点,因为每 10 分钟我就会有 Kafka 中的所有记录。
我只想迁移到 BQ 表中的新值或更新值。 “复制”整个源数据库但删除重复记录的机制(这并不完全相同,因为这将是一个新数据库)。因此,例如从每条记录创建哈希并检查 - 哈希是否已经在 BQ 中 - 通过,如果没有添加它。
我觉得应该是这样的:
Best effort de-duplication
但是如何以 MySQL 作为源来创建整个管道。
【问题讨论】:
【参考方案1】:Cloud Data Fusion Replication 可让您将数据从 SQL Server 和 MySQL 等运营数据存储中连续实时复制到 BigQuery。 要使用 Replication,您需要创建一个新的 Cloud Data Fusion 实例并添加 Replication 应用程序。
总之你在下面做
-
设置 MySQL 数据库以启用复制。
创建并运行 Cloud Data Fusion Replication 管道。
在 BigQuery 中查看结果。
您可以在Replicating data from MySQL to BigQuery查看更多信息
【讨论】:
是的,但它看起来与 Debezium 相同。请阅读我的问题 - 我不能使用这样的工具,因为我的数据库每 10 分钟就会被删除并重新创建一次。 CDC 不会在这里工作以上是关于MySQL 数据库到 BigQuery 的传输的主要内容,如果未能解决你的问题,请参考以下文章
Google BigQuery - 将数据流式传输到 BigQuery
BigQuery 到 Hadoop 集群 - 如何传输数据?
使用java将json数据流式传输到Bigquery中。不使用作业加载数据