hadoop初学

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了hadoop初学相关的知识,希望对你有一定的参考价值。

最近项目研究大数据,即开始研究hadoop,主要参考以下几篇文章:

1.微信一篇hadoop的配置文章,我用的是mac,因此是一个all in one的配置,既不是分布式,也不是伪分布式,这点需要改进和学习

2.了解hadoop的map和reduce的过程

3.运行wordcount,先是用自带的统计英文,在研究通过一个java开源类库,分词统计中文文章,但目前还不准确

 

一些命令:

bin/hadoop fs -put file/myTest*.txt hdfsInput

bin/hadoop jar ~/Coding/Java/GitProjects/chinese-word-count/target/chinese-word-count-1.0.0.jar hdfsInput hdfsOutput

 

 

分词插件IKAnalyzer简介:

http://lxw1234.com/archives/2015/07/422.htm

 

wordcount英文统计分词版(自带):

http://www.cnblogs.com/madyina/p/3708153.html

 

wordcount中文分词版:

http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html

 

wordcount词频改进降序

http://blog.csdn.net/xw13106209/article/details/6122719

 

以上是关于hadoop初学的主要内容,如果未能解决你的问题,请参考以下文章

初学hadoop的个人历程

PHP必用代码片段

Hadoop 初学

大数据初学者的福利——Hadoop快速入门教程

99%初学者的 Hadoop学习线路,你是这样吗?

Big Data - Hadoop - MapReduce初学Hadoop之图解MapReduce与WordCount示例分析