flume从kafka读取数据到hdfs中的配置
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了flume从kafka读取数据到hdfs中的配置相关的知识,希望对你有一定的参考价值。
#source的名字 agent.sources = kafkaSource # channels的名字,建议按照type来命名 agent.channels = memoryChannel # sink的名字,建议按照目标来命名 agent.sinks = hdfsSink # 指定source使用的channel名字 agent.sources.kafkaSource.channels = memoryChannel # 指定sink需要使用的channel的名字,注意这里是channel agent.sinks.hdfsSink.channel = memoryChannel #-------- kafkaSource相关配置----------------- # 定义消息源类型 agent.sources.kafkaSource.type = org.apache.flume.source.kafka.KafkaSource # 定义kafka所在zk的地址 # # 这里特别注意: 是kafka的zookeeper的地址 # agent.sources.kafkaSource.zookeeperConnect = 127.0.0.1:2181 # 配置消费的kafka topic #agent.sources.kafkaSource.topic = testtopic# 配置消费者组的id agent.sources.kafkaSource.groupId = flume # 消费超时时间,参照如下写法可以配置其他所有kafka的consumer选项。注意格式从kafka.xxx开始是consumer的配置属性 agent.sources.kafkaSource.kafka.consumer.timeout.ms = 100 #------- memoryChannel相关配置------------------------- # channel类型 agent.channels.memoryChannel.type = memory # channel存储的事件容量 agent.channels.memoryChannel.capacity=10000 # 事务容量 agent.channels.memoryChannel.transactionCapacity=1000 #---------hdfsSink 相关配置------------------ agent.sinks.hdfsSink.type = hdfs # 注意, 我们输出到下面一个子文件夹datax中 agent.sinks.hdfsSink.hdfs.path = hdfs://lenovo:9000/user/hive/warehouse/test/%Y%m%d%H agent.sinks.hdfsSink.hdfs.writeFormat = Text agent.sinks.hdfsSink.hdfs.fileType = DataStream agent.sinks.hdfsSink.hdfs.rollSize = 1024 agent.sinks.hdfsSink.hdfs.rollCount = 0 agent.sinks.hdfsSink.hdfs.rollInterval = 60 #配置前缀和后缀 agent.sinks.hdfsSink.hdfs.filePrefix=test agent.sinks.hdfsSink.hdfs.fileSuffix=.data #避免文件在关闭前使用临时文件 agent.sinks.hdfsSink.hdfs.inUserPrefix=_ agent.sinks.hdfsSink.hdfs.inUserSuffix= #自定义拦截器 agent.sources.kafkaSource.interceptors=i1 agent.sources.kafkaSource.interceptors.i1.type=com.hadoop.flume.FormatInterceptor$Builder
以上是关于flume从kafka读取数据到hdfs中的配置的主要内容,如果未能解决你的问题,请参考以下文章
CDH-Kerberos环境下使用flume消费带Sentry认证的kafka数据保存到hdfs中
使用flume将数据从kafka topic导入hdfs文件夹
使用flume sink hdfs小文件优化以及HDFS小文件问题分析和解决