Kafka的顺序保证序列化及分区

Posted 2021-05-18 姚春辉

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Kafka的顺序保证序列化及分区相关的知识，希望对你有一定的参考价值。

顺序保证
Kafka可以保证同一个分区里的消息是有序的。即如果生产者按照一定的顺序发送消息，那么Broker就会按照这个顺序把它们写入分区，消费者也会按照同样的顺序去读取它们。

但是在Kafka基本概念及常用场景中，我们介绍了一个主题是可以被分为若干个分区的。

那么我们将一个主题设置为只有一个分区的情况下，那么就可以保证其消息的顺序么？肯定也是不可以的，因为在Kafka的生产者中，我们介绍了Kafka生产者的一些配置，其中会有两个参数配置也会影响消息的顺序，如下：

如果我们将上述参数retries设置为大于0的数，即允许消息失败进行重发，那么如果Kafka生产者在安装顺序发送了A、B两条消息，因为max.in.flight.requests.per.connection参数默认为5，所以生产者是允许在消息A没有收到响应的情况下，直接发送消息B的，然后假设消息A发送失败、消息B发送成功，然后消息A会发送重试，重发消息后成功，那么分区中的消息顺序就为消息B、A了，和发送时的顺序不一致。

所以如果某些场景要求消息是有序的，那么消息是否写入成功也是很关键的，所以不建议把retires设为0 。可以把max.in.flight.request.per.connection设为1，这样在生产者尝试发送第一批消息时，就不会有其他的消息发送给Broker 。不过这样会严重影响生产者的吞吐量，所以只有在对消息的顺序有严格要求的情况下才会这么做。

序列化
创建生产者对象必须指定序列化器，如果默认的序列化器并不能满足我们所有的场景。那么我们完全可以自定义序列化器。只要实现org.apache.kafka.common.serialization.Serializer接口，以及org.apache.kafka.common.serialization.Deserializer即可。

public class MySerializer implements Serializer<Object> {
    @Override
    public void configure(Map<String, ?> configs, boolean isKey) {
        //do nothing
    }

    @Override
    public byte[] serialize(String topic, Object data) {
        byte[] bytes = null;
        try (ByteArrayOutputStream bos = new ByteArrayOutputStream();
             ObjectOutputStream oos = new ObjectOutputStream(bos)) {
            oos.writeObject(data);
            oos.flush();
            bytes = bos.toByteArray();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return bytes;
    }

    @Override
    public void close() {
        //do nothing
    }
}

public class MyDeserializer implements Deserializer<Object> {
    @Override
    public void configure(Map<String, ?> configs, boolean isKey) {
        //do nothing
    }

    @Override
    public Object deserialize(String topic, byte[] data) {
        Object object = null;
        try (ByteArrayInputStream bis = new ByteArrayInputStream(data);
             ObjectInputStream ois = new ObjectInputStream(bis)) {
            object = ois.readObject();
        } catch (Exception e) {
            e.printStackTrace();
        }
        return object;
    }

    @Override
    public void close() {
        //do nothing
    }
}

上述是我们使用了Jdk原生的序列化机制完成的，当然我们也可以使用一些优秀的第三方序列化框架，如我们在
Netty中介绍的ProtoBuf、MessagePack、Kryo，以及Kafka官方推荐的Apache Avro。

然后我们就Kafka的生产者和消费者中，使用上述我们自定义的序列化类和反序列化类即可，如下：

这里我们就来简单了解一下Kafka官方推荐的Avro，其实Avro和ProtoBuf有一点点类似，都会生成了额外的文件，Avro会使用一个JSON文件作为schema来描述数据，Avro在读写时会用到这个schema，可以把这个schema内嵌在数据文件中。这样，不管数据格式如何变动，消费者都知道如何处理数据。

但是内嵌的消息，自带格式，会导致消息的大小不必要的增大，消耗了资源。我们可以使用schema注册表机制，将所有写入的数据用到的schema保存在注册表中，然后在消息中引用schema的标识符，而读取的数据的消费者程序使用这个标识符从注册表中拉取schema来反序列化记录。

注意：Kafka本身并不提供schema注册表，需要借助第三方，现在已经有很多的开源实现，比如Confluent Schema Registry，可以从GitHub上获取。

至于如果使用其Avro，可以参考Kafka中使用Avro序列化

分区
我们在新增ProducerRecord对象中可以看到，ProducerRecord包含了目标主题，键和值，Kafka的消息都是一个个的键值对。（当然我们在ProducerRecord对象中也可以直接指定所要发送的分区）

键的主要用途有两个：

用来决定消息被写往主题的哪个分区，拥有相同键的消息将被写往同一个分区
还可以作为消息的附加消息

另外键可以设置为默认的null。如果键值为null，并且使用默认的分区器，分区器使用轮询算法将消息均衡地分布到各个分区上。

如果键不为空，并且使用默认的分区器，Kafka对键进行散列（Kafka内部实现自定义的散列算法），然后根据散列值把消息映射到特定的分区上。很明显，同一个键总是被映射到同一个分区。但是只有不改变主题分区数量的情况下，键和分区之间的映射才能保持不变，一旦增加了新的分区，就无法保证了，所以如果要使用键来映射分区，那就要在创建主题的时候把分区规划好，而且永远不要增加新分区。

但是某些情况下，数据特性决定了需要进行特殊分区，比如公司业务的特殊性，上海的业务量明显占主要部分，比如占据了总业务量的20%，我们需要对上海的订单进行单独分区处理，默认的散列分区算法不合适了，我们就可以自定义分区算法，对上海的订单进行单独处理，其他地区沿用散列分区算法。或者某些情况下，我们用value来进行分区。

如果需要满足上述的要求，那么我们就需要使用到自定义分区器，如下我们就自定义一个简单的一value值的hashCode来进行分区，主要就是实现org.apache.kafka.clients.producer.Partitioner接口即可，如下：

public class MyPartitioner implements Partitioner {
    @Override
    public int partition(String topic, Object key, byte[] keyBytes, Object value, byte[] valueBytes, Cluster cluster) {
        List<PartitionInfo> partitionInfos = cluster.partitionsForTopic(topic);
        int num = partitionInfos.size();
        //Integer num = cluster.partitionCountForTopic(topic);
        return value.hashCode() % num;
    }

    @Override
    public void close() {
        //do nothing
    }

    @Override
    public void configure(Map<String, ?> configs) {
        //do nothing
    }
}

然后在其Kafka的生产者和消费者中，添加相应的配置即可，和自定义序列化类类似

properties.put(ProducerConfig.PARTITIONER_CLASS_CONFIG, MyPartitioner.class);

以上是关于Kafka的顺序保证序列化及分区的主要内容，如果未能解决你的问题，请参考以下文章

kafka如何保证顺序性

kafka保证消息有序

中通消息平台 Kafka 顺序消费线程模型的实践与优化

Flink消费Kafka如何保证相同标识消息的有序性

了解Kafka

Kafka-如何保证可靠性