Kafka Connect 构建大规模低延迟的数据管道

Posted @SmartSi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Kafka Connect 构建大规模低延迟的数据管道相关的知识,希望对你有一定的参考价值。

很长一段时间以来,公司所做的大部分数据处理都是作为批作业运行,例如,从数据库中转储的 CSV 文件、在一天结束时收集的日志文件等。但企业是实时一直运营的,与其只在一天结束时处理数据,还不如在数据到达时就对其做出反应?这是流处理的新兴世界。但是只有当数据捕获以流的方式完成时,流处理才成为可能;毕竟,我们无法将每天批量处理的 CSV 转储作为流处理。这种向流处理的转变推动了 Apache Kafka 的流行。但是,即使使用 Kafka,构建这种类型的实时数据管道也需要付出一些努力。

Apache Kafka 0.9+ 中的一项新功能 Kafka Connect 使构建和管理流数据管道变得更加容易。

1. 流数据平台:所有数据的中心枢纽

我们有机会在 LinkedIn 构建了一个基于 Kafka 的流数据平台。我们认为流数据的未来就是流数据平台,可以作为所有数据的中心枢纽,在公司范围内广泛运行并支持各种分布式应用程序和系统以流的方式实时消费和处理数据。

流数据平台可以完成两件事:

  • 数据集成:流数据平台捕获事件流或者数据变改,并将它们提供给其他数据系统,例如,关系数据库、KV存储、Hadoop 或者数据仓库。
  • 流式处理:支持对流进行连续、实时的处理与转换࿰

以上是关于Kafka Connect 构建大规模低延迟的数据管道的主要内容,如果未能解决你的问题,请参考以下文章

一文读懂Kafka Connect核心概念

Kafka介绍

Apache Kafka Connect JNDI注入漏洞复现(CVE-2023-25194)

Uber 大规模运行 Apache Pinot实践

kafka快速入门

分布式消息kafka