如何管理flume agent之间的并发。

Posted

技术标签:

【中文标题】如何管理flume agent之间的并发。【英文标题】:How to manage the concurrency between flume agent. 【发布时间】:2017-06-15 09:05:40 【问题描述】:

我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。 然后,我们配置了 3 个代理。他们从同一来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对已处理的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。

有人研究过类似的问题吗?

【问题讨论】:

你使用什么类型的资源? 【参考方案1】:

load balancing sink processor 可以有一个源和三个接收器。

【讨论】:

以上是关于如何管理flume agent之间的并发。的主要内容,如果未能解决你的问题,请参考以下文章

加米谷学院带你了解Flume的高可靠,高性能和高扩展性

0#1hadoop生态圈之日志采集框架Flume入门

flume高并发优化——(16)解决offsets变小问题

Flume 3集群如何采集信息呢?

Flume系列之:记录一次上游数据库产生大量数据导致flume agent数据堆积和服务器IO打满,严重影响下游任务的快速应对处理方法

flume+sparkStreaming实例 实时监控文件demo