如何使用 Apache Flume 过滤多个源数据?

Posted

技术标签:

【中文标题】如何使用 Apache Flume 过滤多个源数据?【英文标题】:How to filter multiple source data using Apache Flume? 【发布时间】:2017-08-18 15:02:04 【问题描述】:

我正在使用 Flume 处理多个源数据并存储在 HDFS 中,但我不明白如何在存储到 HDFS 之前过滤数据。

【问题讨论】:

【参考方案1】:

你有两个选择:

使用 Flume 拦截器,查看答案here。 使用基于流的解决方案(Apache spark,Apache Heron/Storm)过滤记录,然后将其存储在 HDFS 中,

第二个选项使您可以更灵活地编写不同类型的流模式。如果您有更多疑问,请添加评论。

【讨论】:

以上是关于如何使用 Apache Flume 过滤多个源数据?的主要内容,如果未能解决你的问题,请参考以下文章

例外如下。 org.apache.flume.FlumeException:无法在flume twitter分析中加载源类型

Flume学习之路 Flume的配置方式

Apache Flume - 由多个使用者从单个消息队列中提取数据

Apache Flume:无法提交事务。达到堆空间限制

如何使用 java 解析水槽事件(Twitter 源)

flume与kafka集成配置