如何管理flume agent之间的并发。
Posted
技术标签:
【中文标题】如何管理flume agent之间的并发。【英文标题】:How to manage the concurrency between flume agent. 【发布时间】:2017-06-15 09:05:40 【问题描述】:我正在从事大数据项目。我们正在使用 Flume 将文件从 sftp 下载到 HDFS。 然后,我们配置了 3 个代理。他们从同一来源阅读。结果,我们将 3 个重复文件放入 HDFS,这并不好。然而,我们必须只有一个文件。但是,我们需要对已处理的文件保持可追溯性,并管理代理之间的并发性。例如,我们有 3 个主要代理 A1、A2 和 A3。如果代理 A2 正在处理或正在处理文件 xxx.csv。其他人不会处理它,并会寻找未处理的文件。因此,每个文件只能由一个代理处理。
有人研究过类似的问题吗?
【问题讨论】:
你使用什么类型的资源? 【参考方案1】:load balancing sink processor 可以有一个源和三个接收器。
【讨论】:
以上是关于如何管理flume agent之间的并发。的主要内容,如果未能解决你的问题,请参考以下文章
Flume系列之:记录一次上游数据库产生大量数据导致flume agent数据堆积和服务器IO打满,严重影响下游任务的快速应对处理方法