Kafka连接s3 sink多个分区

Posted

技术标签:

【中文标题】Kafka连接s3 sink多个分区【英文标题】:Kafka connect s3 sink multiple partitions 【发布时间】:2020-12-11 01:38:30 【问题描述】:

我有多个关于 kafka connect S3 sink 连接器的问题

1.我想知道是否可以使用kafka connect的S3 sink来保存具有多个分区的记录?

例如我有这个 json 记录:


 "DateA":"UNIXTIMEA",
 "DateB":"UNIXTIMEB",
 "Data":"Some Data"


(所有字段均为***)

是否可以通过以下路径将数据保存在S3中:

s3://sometopic/UNIXTIMEA/UNIXTIMEB

2.我可以转换 UNIXTIMEA/UNIXTIMEB 在不更改记录值本身的情况下转换为可读的日期格式? (出于可读性原因)

3.我可以在 S3 路径中为 UNIXTIMEA 添加前缀吗? 例如:

s3://DateA=UNIXTIMEA/DateB=UNIXTIMEB/...

我刚开始阅读文档,我慢慢掌握了窍门, 我仍然没有真正找到这些问题的直接答案。

我想在我的配置中执行所有这些操作,但我怀疑我能做到 如果没有自定义分区器,我想尽快确认。

提前致谢

马铃薯

【问题讨论】:

【参考方案1】:

FieldPartioner 确实有一个字段名称列表

https://github.com/confluentinc/kafka-connect-storage-common/blob/master/partitioner/src/main/java/io/confluent/connect/storage/partitioner/FieldPartitioner.java#L34

【讨论】:

以上是关于Kafka连接s3 sink多个分区的主要内容,如果未能解决你的问题,请参考以下文章

我在哪里编写 kafka 连接接收器自定义分区器的代码?

kafka s3 sink连接器在获取NULL数据时崩溃

Kafka-Connect:启动 S3 Sink 连接器时出现无法识别的错误

用于 S3 中 PARQUET 格式的 Kafka S3 源连接器

Confluent Kafka Connect HDFS Sink 连接器延迟

在 Confluent S3 Kafka 连接器中压缩 Avro 数据