kafka介绍和使用

Posted 2022-11-23 李晓LOVE向阳

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了kafka介绍和使用相关的知识，希望对你有一定的参考价值。

1.1. 主要功能
根据官网的介绍，Apache Kafka®是一个分布式流媒体平台，它主要有3种功能：

　　1：It lets you publish and subscribe to streams of records.发布和订阅消息流，这个功能类似于消息队列，这也是kafka归类为消息队列框架的原因

　　2：It lets you store streams of records in a fault-tolerant way.以容错的方式记录消息流，kafka以文件的方式来存储消息流

　　3：It lets you process streams of records as they occur.可以再消息发布的时候进行处理

1.2. 使用场景

1：Building real-time streaming data pipelines that reliably get data between systems or applications.在系统或应用程序之间构建可靠的用于传输实时数据的管道，消息队列功能

2：Building real-time streaming applications that transform or react to the streams of data。构建实时的流数据处理程序来变换或处理数据流，数据处理功能
————————————————

1.3. 详细介绍

Kafka目前主要作为一个分布式的发布订阅式的消息系统使用，下面简单介绍一下kafka的基本机制

　　1.3.1 消息传输流程

　Producer即生产者，向Kafka集群发送消息，在发送消息之前，会对消息进行分类，即Topic，上图展示了两个producer发送了分类为topic1的消息，另外一个发送了topic2的消息。

　　　　Topic即主题，通过对消息指定主题可以将消息分类，消费者可以只关注自己需要的Topic中的消息

　　　　Consumer即消费者，消费者通过与kafka集群建立长连接的方式，不断地从集群中拉取消息，然后可以对这些消息进行处理。

1.3.2 kafka服务器消息存储策略

　　　　从上图中就可以看出同一个Topic下的消费者和生产者的数量并不是对应的
谈到kafka的存储，就不得不提到分区，即partitions，创建一个topic时，同时可以指定分区数目，分区数越多，其吞吐量也越大，但是需要的资源也越多，同时也会导致更高的不可用性，kafka在接收到生产者发送的消息之后，会根据均衡策略将消息存储到不同的分区中。

在每个分区中，消息以顺序存储，最晚接收的的消息会最后被消费。

1.3.3 与生产者的交互

　　　　生产者在向kafka集群发送消息的时候，可以通过指定分区来发送到指定的分区中

　　　　也可以通过指定均衡策略来将消息发送到不同的分区中

　　　　如果不指定，就会采用默认的随机均衡策略，将消息随机的存储到不同的分区中

　　1.3.4 与消费者的交互

　　　　在消费者消费消息时，kafka使用offset来记录当前消费的位置

　　　　在kafka的设计中，可以有多个不同的group来同时消费同一个topic下的消息，如图，我们有两个不同的group同时消费，他们的的消费的记录位置offset各不项目，不互相干扰。

　　　　对于一个group而言，消费者的数量不应该多余分区的数量，因为在一个group中，每个分区至多只能绑定到一个消费者上，即一个消费者可以消费多个分区，一个分区只能给一个消费者消费

　　　　因此，若一个group中的消费者数量大于分区数量的话，多余的消费者将不会收到任何消息。

以上是关于kafka介绍和使用的主要内容，如果未能解决你的问题，请参考以下文章