hadoop初学
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop初学相关的知识,希望对你有一定的参考价值。
最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章:
1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习
2.了解hadoop的map和reduce的过程
3.运行wordcount,先是用自带的统计英文,在研究通过一个java开源类库,分词统计中文文章,但目前还不准确
一些命令:
bin/hadoop fs -put file/myTest*.txt hdfsInput bin/hadoop jar ~/Coding/Java/GitProjects/chinese-word-count/target/chinese-word-count-1.0.0.jar hdfsInput hdfsOutput
分词插件IKAnalyzer简介:
http://lxw1234.com/archives/2015/07/422.htm
wordcount英文统计分词版(自带):
http://www.cnblogs.com/madyina/p/3708153.html
wordcount中文分词版:
http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html
wordcount词频改进降序
http://blog.csdn.net/xw13106209/article/details/6122719
以上是关于hadoop初学的主要内容,如果未能解决你的问题,请参考以下文章
Big Data - Hadoop - MapReduce初学Hadoop之图解MapReduce与WordCount示例分析