Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩

Posted JasonLee实时计算

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩相关的知识,希望对你有一定的参考价值。

Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩

在 Flink 1.15 版本对 Source 和 Sink 接口进行了重构,Flink 提供了 File Sink 来写 HDFS,今天这篇文章主要介绍一下如何使用新的接口同步数据到 HDFS 存储格式为 parquet 并且使用 snappy 压缩文件。

整个链路非常的简单,就是从 Kafka 读取数据后中间不做任何处理直接把数据写到 HDFS 上。

KafkaSource

KafkaSource<JasonLeePOJO> source =
        KafkaSource.<String>builder

以上是关于Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩的主要内容,如果未能解决你的问题,请参考以下文章

Flink 实战系列Flink 同步 Kafka 数据到 HDFS parquet 格式存储 snappy 压缩

Flink 实战系列Flink SQL 实时同步 Kafka 数据到 Hudi(parquet + snappy)

Flink 实战系列Flink SQL 实时同步 Kafka 数据到 Hudi(parquet + snappy)并且自动同步数据到 Hive

Flink 实战系列Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS(parquet 格式 + snappy 压缩)

Flink 实战系列Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS(parquet 格式 + snappy 压缩)

Flink实战系列Flink SQL 写入 kafka 自定义分区策略