Flink SQL实战演练之自定义Clickhouse Connector

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink SQL实战演练之自定义Clickhouse Connector相关的知识,希望对你有一定的参考价值。

参考技术A 简介:实时数仓目前的架构是flink+clickhouse,社区目前jdbc connector不支持clickhouse的方言,所以决定自定义clickhouse connector实现flink sql写入数据到clickhouse。

目前想要实现flink sql数据落地到ck,可以修改jdbc connector的源码,增加ck方言,或者采用阿里提供的ck connector包,为了更好的理解flink connector的原理,这里自定义connector实现。

目前支持Flink写入Clickhouse的依赖哭比较多,如果数据格式固定,可以CSV的方式写入,如果不固定,可采用Json的方式写入。

Flink SQL实战演练之自定义Table Format

参考技术A 简介:接着上次Flink CDC继续聊,提到这块,不得不重点说下canal-json format了,canal json format对json format进行了封装,负责把binlog形式的json数据转化成了Flink能够识别的RowData数据,当然也包括数据的描述信息封装类RowType。笔者想实现根据RowKind进行数据的过滤,目前可以通过修改canal format的源数据来实现,也可以通过将changelog流以changelog json的形式回写Kafka。

基于目前对table format的了解,这里自定义event json format,用来处理事件流数据,因为事件流字段不固定,可能只有少部分字段是固定的,其他字段都是扩展的,所以笔者想实现用户自定义schema指定公共字段,然后其他字段以json的行为存在metadata中的default字段中。

Table Format作为Connector组件单独用于序列化和反序列化内部数据的模块而单独存在,多个Connector可以公用。自定义Table Format可以让大家更好的理解Flink SQL时如何将外部数据转化为内部可以识别的RowData数据结构的,从而在排查问题的时候能准确定位到具体位置。

以上是关于Flink SQL实战演练之自定义Clickhouse Connector的主要内容,如果未能解决你的问题,请参考以下文章

Flink SQL实战演练之Kafka To Hive

Flink实战系列Flink SQL 写入 kafka 自定义分区策略

Demo:基于 Flink SQL 构建流式应用

SQL Server数据库高级进阶之事务实战演练

Flink SQL 窗口表值函数 Window TVF 实战

Flink实战系列Flink SQL 之 Session Window 的用法