Flume之各种 Channel 的介绍及参数解析

Posted 2023-04-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Flume之各种 Channel 的介绍及参数解析相关的知识，希望对你有一定的参考价值。

参考技术A Channel被设计为Event中转临时缓冲区，存储Source收集并且没有被Sink读取的Event，为平衡Source收集和Sink读取数据的速度，可视为Flume内部的消息队列。Channel线程安全并且具有事务性，支持source写失败重复写和sink读失败重复读等操作。

常用的Channel类型有Memory Channel、File Channel、KafkaChannel等。

对比Channel, Memory Channel读写速度快，但是存储数据量小，Flume进程挂掉、服务器停机或者重启都会导致数据丢失。部署Flume Agent的线上服务器内存资源充足、不关心数据丢失的场景下可以使用。

将 event 写入磁盘文件，与 Memory Channel 相比存储容量大，无数据丢失风险。File Channle 数据存储路径可以配置多磁盘文件路径，通过磁盘并行写入提高FileChannel 性能。Flume 将 Event 顺序写入到 File Channel 文件的末尾，在配置文件中通过设置 maxFileSize 参数配置数据文件大小，当被写入的文件大小达到上限时 Flume 会重新创建新的文件存储写入的 Event。当然数据文件数量也不会无限增长，当一个已关闭的只读数据文件中的 Event 被读取完成，并且 Sink 已经提交读取完成的事务，则 Flume 将删除存储该数据的文件。Flume 通过设置检查点和备份检查点实现在 Agent 重启之后快速将 File Channle 中的数据按顺序回放到内存中，保证在 Agent 失败重启后仍然能够快速安全地提供服务。

将Kafka作为Channel存储，Kafka是分布式、可扩展、高容错、高吞吐的分布式系统，Kafka通过优秀的架构设计充分利用磁盘顺序特性，在廉价的硬件条件下完成高效的消息发布和订阅。

Memory Channel在使用的过程中受内存容量的限制不能缓存大量的消息，并且如果Memory Channel中的消息没来得及写入Sink，此时Agent出现故障就会造成数据丢失。File Channel虽然能够缓存更多的消息，但如果缓存下来的消息还没有写入Sink，此时Agent出现故障则File Channel中的消息不能被继续使用，直到该Agent重新恢复才能够继续使用File Channel中的消息。Kafka Channel相对于Memory Channel和File Channel存储容量更大、容错能力更强，弥补了其他两种Channel的短板，如果合理利用Kafka的性能，能够达到事半功倍的效果。

有了Kafka Channel可以在日志收集层只配置Source组件和Kafka Channel组件，不需要再配置Sink组件，减少了日志收集层启动的进程数并且有效降低服务器内存、磁盘等资源使用率，日志汇聚层可以只配置Kafka Channel和Sink，不需要再配置Source，减少日志汇聚层的进程数，这样的配置既能降低服务器的资源使用率又能减少Event在网络之间的传输，有效提高日志采集系统的性能。

Kafka Channel相关操作在org.apache.flume.channel.kafka包的KafkaChannel类定义，
kafka相关参数的默认值在org.apache.kafka.clients.CommonClientConfigs包中的KafkaChannel-Configuration中。
Kafka的通用配置参数在配置文件中都以“kafka.”为前缀，针对Producer或者Consumer的相关配置以“kafka.producer. ”或者“kafka.consumer. ”为前缀，
源码 KafkaChannelConfiguration 中相关默认配置参数定义如下：

说明：agent_name 没有配置Source，只配置了Channel和Sink，使用的Channel类型为Kafka Channel，主题名称为“test_channel”, consumer组id为“test-consumer”, Sink类型为 hdfs 滚动生成文件，对接的Channel为KafkaChannel channel_name。

flume安装及ganglia使用

一、flume是什么

?????? Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。
flume的架构：
技术图片

flume的组成架构：
技术图片

二、flume的组件介绍

1、Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的。
Agent主要有3个部分组成，Source、Channel、Sink。

2、Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy

3、Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。

Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

4、Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。

Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

5、Event

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地。??Event由可选的header和载有数据的一个byte array 构成。Header是容纳了key-value字符串对的HashMap。
技术图片

6、Flume Agent内部原理

技术图片

三、flume的安装

flume官网地址：http://flume.apache.org/

1、安装包进行解析
技术图片

2、将flume/conf下的flume-env.sh.template文件修改为flume-env.sh，并配置flume-env.sh文件
技术图片

3、配置/etc/profile
技术图片

四、flume测试

案列：监听本地的一个端口，通过netcat往监听的端口发送消息，然后flume将收集的消息展示在控制台。
1、安装netcat工具
sudo yum install -y nc

2、选择一个端口，看是否被使用
技术图片

3、创建Flume Agent配置文件flume-netcat-logger.conf
技术图片

4、启动agent和nc
技术图片

5、测试成功

五、安装flume监控Ganglia

1、Ganglia的安装与部署

1.1、安装httpd服务与php

sudo yum -y install httpd php

1.2、安装其他依赖

sudo yum -y install rrdtool perl-rrdtool rrdtool-devel
sudo yum -y install apr-devel

1.3、安装ganglia

sudo rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarch.rpm
sudo yum -y install ganglia-gmetad
sudo yum -y install ganglia-web
sudo yum install -y ganglia-gmond

1.4、ganglia介绍

Ganglia由gmond、gmetad和gweb三部分组成。

gmond（Ganglia Monitoring Daemon）是一种轻量级服务，安装在每台需要收集指标数据的节点主机上。使用gmond，你可以很容易收集很多系统指标数据，如CPU、内存、磁盘、网络和活跃进程的数据等。

gmetad（Ganglia Meta Daemon）整合所有信息，并将其以RRD格式存储至磁盘的服务。

gweb（Ganglia Web）Ganglia可视化工具，gweb是一种利用浏览器显示gmetad所存储数据的PHP前端。在Web界面中以图表方式展现集群的运行状态下收集的多种不同指标数据。

1.5、修改配置文件/etc/httpd/conf.d/ganglia.conf

技术图片

1.6、修改配置文件/etc/ganglia/gmetad.conf

技术图片

1.7、修改配置文件/etc/ganglia/gmond.conf

技术图片

1.8、修改配置文件/etc/selinux/config

技术图片
selinux本次生效关闭必须重启，如果此时不想重启，可以临时生效之：

sudo setenforce 0

1.9、启动ganglia

sudo service httpd start

sudo service gmetad start

sudo service gmond start

1.10、打开网页浏览ganglia页面

技术图片

2、测试Ganglia

2.1、修改flume-env.sh配置

技术图片

2.2、启动Flume任务

flume-ng agent --conf conf/ --name a1 --conf-file jobs/flume-netcat-logger.conf -Dflume.root.logger==INFO,console -Dflume.monitoring.type=ganglia -Dflume.monitoring.hosts=192.168.13.137:8649

2.2、发送数据观察ganglia监测图

nc localhost 44444

技术图片

成功！

以上是关于Flume之各种 Channel 的介绍及参数解析的主要内容，如果未能解决你的问题，请参考以下文章

Flume之 各种 Channel 的介绍及参数解析

flume安装及ganglia使用

一、flume是什么

二、flume的组件介绍

1、Agent

2、Source

3、Channel

4、Sink

5、Event

6、Flume Agent内部原理

三、flume的安装

四、flume测试

五、安装flume监控Ganglia

1、Ganglia的安装与部署

1.1、安装httpd服务与php

1.2、安装其他依赖

1.3、安装ganglia

1.4、ganglia介绍

1.5、修改配置文件/etc/httpd/conf.d/ganglia.conf

1.6、修改配置文件/etc/ganglia/gmetad.conf

1.7、修改配置文件/etc/ganglia/gmond.conf

1.8、修改配置文件/etc/selinux/config

1.9、启动ganglia

1.10、打开网页浏览ganglia页面

2、测试Ganglia

2.1、修改flume-env.sh配置

2.2、启动Flume任务

2.2、发送数据观察ganglia监测图

Flume之各种 Channel 的介绍及参数解析