从文件中为hadoop中的映射器创建自定义键值
Posted
技术标签:
【中文标题】从文件中为hadoop中的映射器创建自定义键值【英文标题】:creating custom key value for mappers in hadoop from file 【发布时间】:2016-02-18 06:31:16 【问题描述】:我有一个大小为 50MB 的文件(没有空格的完整文本数据)。我想以这样一种方式对这些数据进行分区,即每个映射器都应该获得 5MB 数据。映射器应该以 (K,V) 格式获取数据,其中键 - 分区编号(如 1,2,..)和值是纯文本 (5MB)。
我阅读了InputFormat (method getSplits)
、FileInputFormat (FileSplit method)
和RecordReader
,但不明白如何生成和使用拆分来为我的映射器创建所需的自定义 (K,V)。我是 Hadoop MapReduce
编程的新手,所以请建议我在这种情况下如何进行。
【问题讨论】:
没有空格的完整文本数据是什么意思?你能提供一个小例子吗?您需要一个逻辑来为映射器创建您可以在配置中以字节为单位设置mapreduce.input.fileinputformat.split.maxsize
,以告诉映射器您应该获得 5MB 的数据。
【讨论】:
以上是关于从文件中为hadoop中的映射器创建自定义键值的主要内容,如果未能解决你的问题,请参考以下文章
Hadoop MapReduce访问减速器中的映射器输出编号