大数据Kafka都有哪些优势能力呢?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据Kafka都有哪些优势能力呢?相关的知识,希望对你有一定的参考价值。

大数据Kafka有哪些优势能力呢?

Kafka的高吞吐能力、缓存机制能有效的解决高峰流量冲击问题。实践表明,在未将kafka引入系统前,当互联网关发送的数据量较大时,往往会挂起关系数据库,数据常常丢失。在引入kafka后,更新程序能够结合能力自主处理消息,不会引起数据丢失,关系型数据库的压力波动不会发生过于显著的变化,不会出现数据库挂起锁死现象。

依靠kafka的订阅分发机制,实现了一次发布,各分支依据需求自主订阅的功能。避免了各分支机构直接向数据中心请求数据,或者数据中心依次批量向分支机构传输数据以致实时性不足的情况。kafka提高了实时性,减轻了数据中心的压力,提高了效率。为了帮助大家让学习变得轻松、高效,给大家免费分享一大批资料,帮助大家在成为大数据工程师,乃至架构师的路上披荆斩棘。在这里给大家推荐一个大数据学习交流圈:658558542 欢迎大家进群交流讨论,学习交流,共同进步。

当真正开始学习的时候难免不知道从哪入手,导致效率低下影响继续学习的信心。

但最重要的是不知道哪些技术需要重点掌握,学习时频繁踩坑,最终浪费大量时间,所以有有效资源还是很有必要的。

消费者是以consumer group消费者组的方式工作,由一个或者多个消费者组成一个组,共同消费一个topic。每个分区在同一时间只能由group中的一个消费者读取,但是多个group可以同时消费这个partition。在图中,有一个由三个消费者组成的group,有一个消费者读取主题中的两个分区,另外两个分别读取一个分区。某个消费者读取某个分区,也可以叫做某个消费者是某个分区的拥有者。
在这种情况下,消费者可以通过水平扩展的方式同时读取大量的消息。另外,如果一个消费者失败了,那么其他的group成员会自动负载均衡读取之前失败的消费者读取的分区。

    消费方式

    consumer采用pull(拉)模式从broker中读取数据。

    push(推)模式很难适应消费速率不同的消费者,因为消息发送速率是由broker决定的。它的目标是尽可能以最快速度传递消息,但是这样很容易造成consumer来不及处理消息,典型的表现就是拒绝服务以及网络拥塞。而pull模式则可以根据consumer的消费能力以适当的速率消费消息。

    对于Kafka而言,pull模式更合适,它可简化broker的设计,consumer可自主控制消费消息的速率,同时consumer可以自己控制消费方式——即可批量消费也可逐条消费,同时还能选择不同的提交方式从而实现不同的传输语义。

    pull模式不足之处是,如果kafka没有数据,消费者可能会陷入循环中,一直等待数据到达。为了避免这种情况,我们在我们的拉请求中有参数,允许消费者请求在等待数据到达的“长轮询”中进行阻塞(并且可选地等待到给定的字节数,以确保大的传输大小)。

    消费者组的偏移量等信息存储在zookeeper中的consumers节点中。

6.1 Kafka Producer 压力测试

    record-size 是一条信息有多大,单位是字节。

    num-records 是总共发送多少条信息。

    throughput 是每秒多少条信息,设成-1,表示不限流,可测出生产者最大吞吐量。

参考技术A 文件传输协议(FTP)是网络上文件传输的一组标准协议。FTP允许用户通过文件操作(如添加、删除、修改、检查和传输文件等)与另一台主机进行通信。).Kafka最初由Linkedin开发,是一个分布式、分区、多副本、多订户、分布式消息传递系统。如果真的要拿ftp和卡夫卡比较,可以这样描述:1。FTP只需要一个地址和用户名就可以在任何可访问的地方共享文件,主要用于共享文件;2.Kafka一般用于分布式系统或者大数据分析,大部分情况下需要编码,Kafka环境的建立应该比FTB更辅助。 参考技术B 高吞吐量:Kafka 每秒可以生产约 25 万消息(50 MB),每秒处理 55 万消息(110 MB)
  持久化数据存储:可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如 ETL,以及实时应用程序。通过将数据持久化到硬盘以及replication 防止数据丢失。
  分布式系统易于扩展:所有的 producer、broker 和 consumer 都会有多个,均为分布式的。无需停机即可扩展机器。
  客户端状态维护:消息被处理的状态是在 consumer 端维护,而不是由 server 端维护。当失败时能自动平衡。
参考技术C Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 (1)优点:kafka的优点非常多 高性能:单机测试能达到 100w tps;

以上是关于大数据Kafka都有哪些优势能力呢?的主要内容,如果未能解决你的问题,请参考以下文章

大数据的应用场景都有哪些(零售篇)

大数据的特性优势有哪些

数据可视化大屏都有哪些优点?

大数据需要掌握哪些技能

如何增强自己的知识/数据获取能力?都有哪些渠道?

大数据数据库都有哪些