Flume 推文的未知文件格式
Posted
技术标签:
【中文标题】Flume 推文的未知文件格式【英文标题】:Unknown files format of tweets from Flume 【发布时间】:2018-04-14 17:06:22 【问题描述】:我正在尝试使用 Flume 获取推文。我正在使用 cloudera
我使用here提供的推特源代码
下面是我的配置文件:
TwitterAgent.sources = Twitter
TwitterAgent.channels = MemChannel
TwitterAgent.sinks = HDFS
#
TwitterAgent.sources.Twitter.type = org.apache.flume.source.twitter.TwitterSource
TwitterAgent.sources.Twitter.channels = MemChannel
TwitterAgent.sources.Twitter.consumerKey = <>
TwitterAgent.sources.Twitter.consumerSecret = <>
TwitterAgent.sources.Twitter.accessToken = <>
TwitterAgent.sources.Twitter.accessTokenSecret = <>
TwitterAgent.sources.Twitter.keywords = hadoop, big data, analytics, bigdata, cloudera, data science, data scientiest, business intelligence, mapreduce, data warehouse, data warehousing, mahout, hbase, nosql, newsql, businessintelligence, cloudcomputing
TwitterAgent.sinks.HDFS.channel = MemChannel
TwitterAgent.sinks.HDFS.type = hdfs
TwitterAgent.sinks.HDFS.hdfs.path = hdfs://localhost:8020/user/root/flume/tweet/%Y/%m/%d/%H/
TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream
TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text
TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000
TwitterAgent.sinks.HDFS.hdfs.rollSize = 0
TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000
TwitterAgent.sinks.HDFS.hdfs.useLocalTimeStamp = true
TwitterAgent.sinks.HDFS.hdfs.callTimeout = 180000
TwitterAgent.channels.MemChannel.type = memory
TwitterAgent.channels.MemChannel.capacity = 10000
TwitterAgent.channels.MemChannel.transactionCapacity = 100
这是命令:
sudo /usr/bin/flume-ng agent -c /usr/lib/flume-ng/conf -f /usr/lib/flume-ng/conf/flume-conf.properties -Dflume.root.logger=INFO,console -n TwitterAgent
它似乎工作正常,已处理,我在文件系统中找到了几个文件,例如:FlumeData.1523723075629
但是,这些文件的格式是未知的,我认为它们应该是 JSON 格式。我试图通过记事本++打开其中一个,我发现了推文,但结构不清楚。此外,推文不是基于配置文件中指定的关键字。如何解决这些问题?如何获取正确的文件格式以及如何获取正确的推文?
提前致谢
【问题讨论】:
【参考方案1】:谢谢,已解决 我改变了 TwitterAgent.sources.Twitter.type=org.apache.flume.source.twitter.TwitterSource 到 TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource
【讨论】:
以上是关于Flume 推文的未知文件格式的主要内容,如果未能解决你的问题,请参考以下文章