Kafka连接s3 sink多个分区
Posted
技术标签:
【中文标题】Kafka连接s3 sink多个分区【英文标题】:Kafka connect s3 sink multiple partitions 【发布时间】:2020-12-11 01:38:30 【问题描述】:我有多个关于 kafka connect S3 sink 连接器的问题
1.我想知道是否可以使用kafka connect的S3 sink来保存具有多个分区的记录?
例如我有这个 json 记录:
"DateA":"UNIXTIMEA",
"DateB":"UNIXTIMEB",
"Data":"Some Data"
(所有字段均为***)
是否可以通过以下路径将数据保存在S3中:
s3://sometopic/UNIXTIMEA/UNIXTIMEB
2.我可以转换 UNIXTIMEA/UNIXTIMEB 在不更改记录值本身的情况下转换为可读的日期格式? (出于可读性原因)
3.我可以在 S3 路径中为 UNIXTIMEA 添加前缀吗? 例如:
s3://DateA=UNIXTIMEA/DateB=UNIXTIMEB/...
我刚开始阅读文档,我慢慢掌握了窍门, 我仍然没有真正找到这些问题的直接答案。
我想在我的配置中执行所有这些操作,但我怀疑我能做到 如果没有自定义分区器,我想尽快确认。
提前致谢
马铃薯
【问题讨论】:
【参考方案1】:FieldPartioner 确实有一个字段名称列表
https://github.com/confluentinc/kafka-connect-storage-common/blob/master/partitioner/src/main/java/io/confluent/connect/storage/partitioner/FieldPartitioner.java#L34
【讨论】:
以上是关于Kafka连接s3 sink多个分区的主要内容,如果未能解决你的问题,请参考以下文章
Kafka-Connect:启动 S3 Sink 连接器时出现无法识别的错误
用于 S3 中 PARQUET 格式的 Kafka S3 源连接器