linux命令实现词频统计

Posted 2023-02-03 asin929

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了linux命令实现词频统计相关的知识，希望对你有一定的参考价值。

问题

给定示例文件test.txt如下，对第一列做词频统计并排序。

hello marry
max thread
hello lihua
max apple
max code
nasa connection

切割->分组->排序，cat test.txt | cut -d ' ' -f1 | sort | uniq -c | sort -k 1

      1 nasa
      2 hello
      3 max

注意：上面在分组前进行一次sort操作并不是多余的，假如不sort，uniq只会对相邻相同的单词分组。

cat test.txt | cut -d ' ' -f1 | sort | uniq -c | wc -l

上述的wordcount在海量数据情况下适用吗？答：并不适用。因为sort命令采用了归并排序，排序时候的临时小文件是默认放在/tmp路径下的，有时候/tmp的空间有限制，比如4G，那么，超过4G的文件就没有办法用sort了。当然也可以用sort -T Path 来临时文件的目录。见参考博文1。

以上是关于linux命令实现词频统计的主要内容，如果未能解决你的问题，请参考以下文章