Kafka Connect 如何构建实时数据管道

Posted 2022-02-04 @SmartSi

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Kafka Connect 如何构建实时数据管道相关的知识，希望对你有一定的参考价值。

Kafka Connect 旨在通过将数据移入和移出 Kafka 进行标准化，以更轻松地构建大规模的实时数据管道。我们可以使用 Kafka Connector 读取或写入外部系统、管理数据流以及扩展系统，所有这些都无需开发新代码。Kafka Connect 管理与其他系统连接时的所有常见问题（Schema 管理、容错、并行性、延迟、投递语义等），每个 Connector 只关注如何在目标系统和 Kafka 之间复制数据。

如果有对 Kafka Connect 不了解的，可以参考Kafka Connect 构建大规模低延迟的数据管道

1. 执行模式

Kafka Connect 是与 Apache Kafka 一起发布的，所以没有必要单独安装，对于生产使用，特别是计划使用 Connect 移动大量数据或运行多个 Connector 时，应该在单独的服务器上运行 Connect。在这种情况下，所有的机器上安装 Apache Kafka，并在部分服务器上启动 broker，然后在其他服务器上启动 Connect。Kafka Connect 目前支持两种执行模式：Standalone 模式和分布式模式。

1.1 Standalone 模式

在 Standalone 模式下，所有的工作都在单个进程中完成。这种模式更容易配置以及入门，但不能充分利用 Kafka Connect 的某些重要功能，例如，容错。我们可以使用

以上是关于Kafka Connect 如何构建实时数据管道的主要内容，如果未能解决你的问题，请参考以下文章

技术干货具有HadoopSpark和Kafka的实时大数据管道