利用Hadoop streaming 进行词频统计

Posted 2021-11-28 bigwatermelon

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了利用Hadoop streaming 进行词频统计相关的知识，希望对你有一定的参考价值。

创建一个文件夹

bin/hdfs dfs -mkdir /input

将要统计的文件上传到hadoop
bin/hadoop fs -put /test.txt /input

利用hadoop进行词频统计
bin/hadoop jar share/hadoop/tools/lib/Hadoop-streaming-2-9-2.jar –input /test.txt –output /user/results.txt –mapper /bin/cat -reducer /usr/bin/wc

删除results.txt文件

./bin/hadoop dfs -rmr /user/results.txt

查看results.txt文件目录

bin/hadoop dfs -ls /user/results.txt

查看统计结果

bin/hadoop dfs -ls /user/results.txt/part-0000

以上是关于利用Hadoop streaming 进行词频统计的主要内容，如果未能解决你的问题，请参考以下文章

Hadoop综合大作业

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取——对抽取的关键词进行词频统计

利用jieba库进行词频统计

利用jieba分词进行词频统计

Hadoop大作业