Flink系列之:Flink CDC实现海量数据入湖

Posted 勇敢羊羊在飞奔

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink系列之:Flink CDC实现海量数据入湖相关的知识,希望对你有一定的参考价值。

Flink系列之:Flink CDC实现海量数据入湖

一、历史数据入湖架构

二、核心需求

  • 全量增量自动切换,并保证数据准确性
  • 最大限度地减少对源数据库的影响,尽量不使用锁
  • 能在已存在的任务中,添加新表的数据采集。避免一张表一个任务把DB机器带宽打满
  • 能同时进行全量与增量(日志)采集,不能暂停日志采集,以降低新增表对其他表日志采集带来的延迟
  • 能确保数据在同一主键ID下是按历史顺序发生的,不能有后发生的事件先发送到下游

三、选择Flink CDC原因

  • 无缝对接Flink生态
  • 全量与增量自动切换,保证数据准确性
  • 无锁读取,断点续传,水平扩展

四、Flink CDC 2.0原理

  • 基于FLIP-27架构实现,先全量同步,在Enumerator把表切分成多个split块。把切分好的SnapshotSplit分配给Sourceread执行全量数据采集。
  • 采集完成后,SourceRead向Enumerator汇报完成的SnapshotSplit信息。
  • 重复步骤1、2。
  • 全量采集完成之后,构造BinlogSplit分配给SourceRead执行增量日志数据采集。

五、支持全量与增量日志流并行读取

  • 新增表后,停止增量日志数据采集任务,与核心需求4不符,造成新增表对其他表日志采集带来延迟。

解决方法:

  1. 全量与增量日志并行读取

全量与增量日志并行读取流程:

  1. 程序启动后,在Enumerator中,先执行增量同步去,创建BinlogSplit,放在分配列表的第一个,然后分配给SourceRead执行增量日志数据采集。
  2. Enumerator把全量采集切分成多个split块。然后把切分好的SnapshotSplit分配给SourceRead执行全量数据采集。
  3. 全量split采集完成后,SourceRead向Enumerator汇报完成的split信息。
  4. 重复步骤2、3,直到把所有表的全量数据都采集完毕。

以上是关于Flink系列之:Flink CDC实现海量数据入湖的主要内容,如果未能解决你的问题,请参考以下文章

Flink CDC + Hudi 海量数据入湖在顺丰的实践

基于Flink CDC打通数据实时入湖

基于 Flink CDC 打通数据实时入湖

Flink CDC 系列 - Flink MongoDB CDC 在 XTransfer 的生产实践

Flink 实战系列Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi

Flink 实战系列Flink CDC 实时同步 Mysql 全量加增量数据到 Hudi