flume 1.7 的配置

Posted 2020-10-03

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了flume 1.7 的配置相关的知识，希望对你有一定的参考价值。

Apache Flume是一个分布式的、可靠的、高效的日志数据收集组件；我们通常使用Flume将分散在集群中多个Servers的log文件，汇集到中央式的数据平台中，以解决“从离散的日志文件中查看、统计数据困难”的问题。当然，Flume不仅仅可以收集log文件，它也支持比如TCP、UDP等消息数据的收集；无论如何，我们最终解决的问题就是“将离散的数据进行收集

flume的一些核心概念：
Agent使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client生产数据，运行在一个独立的线程。
Source从Client收集数据，传递给Channel。
Sink从Channel收集数据，运行在一个独立线程。
Channel连接 sources 和 sinks ，这个有点像一个队列。
Events可以是日志记录、 avro 对象等

Flume以agent为最小的独立运行单位。一个agent就是一个JVM。单agent由Source、Sink和Channel三大组件构成，如下图：

技术分享