FusionInsight大数据开发---Flume应用开发

Posted cainiao-chuanqi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了FusionInsight大数据开发---Flume应用开发相关的知识,希望对你有一定的参考价值。

Flume应用开发

要求:

  1. 了解Flume应用开发适用场景
  2. 掌握Flume应用开发

Flume应用场景
Flume的核心是把数据从数据源收集过来,在送到目的地。为了保证输送一定成功,发送到目的地之前,会先缓存数据,待数据真正的到达目的地后,删除自己缓存的数据。
Flume采用流式方法采集和传输数据,程序配置好后,不需要外部条件触发下,一直监控数据源,源源不断地采集、传送数据到目的地。

主要应用于一下几种场景:

  1. 将分布式节点上大量数据实时采集、汇总和转移
  2. 将集群内、外地本地文件、实时数据流采集到FusionInsight集群内的HDFS、HBase,Kafka,Solr中。
  3. 将Avro、System,http,Thrift,JMS、Log4j协议发送过来地数据采集到FusionInsight集群内

Flume基本概念

  1. Source:数据源,即是产生日志信息地源头,Flume会将原始数据建模抽象成自己处理地数据对象:event
  2. Channel:通道,主要作用是临时缓存Source发过来地数据
  3. Sink:主要是从channel中取出数据并将数据放到不同地目的地
  4. event:一个数据单元,带有一个可选地消息头,Flume传输地数据地基本单位是event,如果是文本文件,通常是一行记录。event从Source,流向Channel,再到Sink,Sink将数据写入目的地

方案设计:
1)首先确定数据源:集群外
2)数据最终流向:KafKa(集群内)

以上是关于FusionInsight大数据开发---Flume应用开发的主要内容,如果未能解决你的问题,请参考以下文章

FusionInsight大数据开发---Kafka应用开发

目录---(更新中...)

FusionInsight,一个融合的大数据平台

FusionInsight HD V100R002C80SPC200安装手册

华为云FusionInsight连续三次获得第一,加速释放数据要素价值

案例:华为FusionInsight 大数据平台集成 atlas1.0.0 ,环境Centos7