2021年大数据Kafka：kafka生产者数据分发策略

Posted 2021-09-14 Lansonli

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了2021年大数据Kafka：kafka生产者数据分发策略相关的知识，希望对你有一定的参考价值。

全网最详细的大数据Kafka文章系列，强烈建议收藏加关注！

新文章都已经列出历史文章目录，帮助大家回顾前面的知识重点。

系列历史文章

kafka在数据生产的时候，有一个数据分发策略。默认的情况使用DefaultPartitioner.class类。这个类中就是定义数据分发的策略

生产就不会调用DefaultPartitioner.partition() 方法 , 数据分发策略的时候，可以指定数据发往哪个 partition 。当ProducerRecord 的构造参数中有 partition 的时候，就可以发送到对应 partition 上

注意: 如果 key 一直不变，同一个 key 算出来的 hash 值是个固定值。如果是固定值，这种 hash 取模就没有意义。 Utils.toPositive(Utils.murmur2(keyBytes)) % numPartitions

Sticky Partitioning Strategy会随机地选择一个分区并会尽可能地坚持使用该分区——即所谓的粘住这个分区。

原因：

kafka 在发送消息的时候 , 采用批处理方案 , 当达到一批后进行分送 , 但是如果一批数据中有不同分区的数据 , 就无法放置到一个批处理中, 而老版本中轮询方案 , 就会导致一批数据被分到多个小的批次中 , 从而影响效率 , 故在新版本中 , 采用这种粘性的划分策略

以上是关于2021年大数据Kafka：kafka生产者数据分发策略的主要内容，如果未能解决你的问题，请参考以下文章