Flink 实战系列Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi

Posted JasonLee实时计算

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink 实战系列Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi相关的知识,希望对你有一定的参考价值。

【Flink 实战系列】Flink CDC 实时同步 mysql 全量加增量数据到 Hudi

前言

Flink CDC 是基于 Flink 开发的变化数据获取组件(Change data capture),简单的说就是来捕获变更的数据,Apache Hudi 是一个数据湖平台,又支持对数据做增删改查操作,所以 Flink CDC 可以很好的和 Hudi 结合起来,打造实时数仓,实时湖仓一体的架构,下面就来演示一下同步的过程。

环境

组件 版本
Flink 1.15.1
Hadoop 2.9.0
Hudi 0.12.0
Mysql 5.x
Flink CDC 2.3.0

添加 Jar 包依赖

为了方便演示,这里就直接采用 sql-client 提交任务的方式,在提交任务之前,需要先添加几个必要的 Jar 包。

flink-sql-connector-mysql-cdc-2.3.0.jar
hudi-flink1.15-bundle-0.12.0.jar
mysql-connector-java-5.1.47.jar

把这三个 Jar 包添加到 flink/lib 下面。

以上是关于Flink 实战系列Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi的主要内容,如果未能解决你的问题,请参考以下文章

Flink系列之:基于Flink CDC2.0实现海量数据的实时同步和转换

Flink实战系列Flink SQL 实时同步数据到 Hive

Flink 实战系列Flink SQL 实时同步 Kafka 数据到 Hudi(parquet + snappy)

Flink SQL CDC

Flink SQL CDC

Flink SQL CDC