S3 接收器连接器的配置设置
Posted
技术标签:
【中文标题】S3 接收器连接器的配置设置【英文标题】:Config settings for S3 sink connector 【发布时间】:2021-08-17 15:02:27 【问题描述】:我是 S3 接收器连接器的新手,我正在尝试为我的项目设置 s3 连接器。 我有几个疑问:
flush.size在配置中有什么用?如果我给它一个非常大的数字(2147483647),那它会如何工作? rotate.interval.ms - 如果我将其值设为 1 小时,这将如何工作? rotate.schedule.interval.ms - 如果我使用此设置,我会得到重复的记录吗?提前致谢!
【问题讨论】:
【参考方案1】:flush size 决定了你期望文件中记录数的上限;如果您将其设置得很大,那么您将耗尽 Connect 工作程序上的内存/磁盘空间,或者您将最终每个分区或轮换间隔一个大文件
这两种设置在不同的时间间隔内运行,不应组合使用。如果您每小时轮换一次,您应该期望记录(当时的缓冲区大小会小于刷新大小)会经常刷新
下一个问题,来自文档
设置 rotate.schedule.interval.ms 是非确定性的,并且会使完全一次保证无效
【讨论】:
我这里有几个问题: 1. 我有 10 个主题要从中读取数据,我应该为每个主题创建多个接收器连接器还是应该将它们全部包含在 1 个连接器中? 2. 如果我使用相同的连接器,我保留在下面的配置以在 s3 中摄取数据。 "flush.size": "2147483647" "rotate.interval.ms": "3600000" 3. 所有主题的数据频率以 GB 为单位,以上配置是否能够处理负载,或者我应该尝试进行一些更改在配置中? 您可以增加最大任务数,以便多个线程能够读取所有主题的所有分区。但是,如果某个主题由于某种原因无法读取,则所有任务都开始失败,则不会读取任何主题。因此最好分开有单独的连接器以实现容错。数据大小并不重要以上是关于S3 接收器连接器的配置设置的主要内容,如果未能解决你的问题,请参考以下文章
在 Confluent S3 Kafka 连接器中压缩 Avro 数据
用于 S3 中 PARQUET 格式的 Kafka S3 源连接器