词频统计

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了词频统计相关的知识,希望对你有一定的参考价值。

(1)简要说明:

 统计一篇给定的文章中,各个单词出现的次数的算法。用HashMap 来存放出现的单词的次数,Key 是要统计的单词,Value 是单词出现的次数。最后再按照 Key 的升序排列出来。

(2)代码实现:

public class CountOccurrenceOfWords {


public static void main(String[] args) throws Exception { 
              Map hashMap = null; 
              BufferedReader infile = null; 
              StringTokenizer st = null; 
              String filename = "Text.txt"; 
              String string; 
              String file = null; 
              //打开一篇文章,名字是 Test.txt .
              infile = new BufferedReader(new FileReader(filename)); 
              while ((string = infile.readLine()) != null) { 
                    file += string; //都出整篇文章,存入String中。


             hashMap = new HashMap(); 
          // 取出文章中的单词,"," "." "!" " " 为各个单词的分界符。
             st = new StringTokenizer(file, ";: ,.!"); 

            while (st.hasMoreTokens()) { 
                   String key = st.nextToken(); 
                       if (hashMap.get(key) != null) { 
                           int value = ((Integer) hashMap.get(key)).intValue(); 
                           value++; 
                           hashMap.put(key, new Integer(value)); 
                       } else { 
                            hashMap.put(key, new Integer(1)); 



                //按照单词的字母次序输出。
               Map treeMap = new TreeMap(hashMap); 
               Set entrySet = treeMap.entrySet(); 

               Iterator iterator = entrySet.iterator(); 

               while (iterator.hasNext()) { 

                   System.out.println(iterator.next()); 


}

 (3)部分结果输出:

As=1
But=2
Environment=1
Everybody=1
Fourthly=1
How=1
I=3
In=2
It=1
One=1
Our=1
Ourselves=1
People=1
Point=2
Protect=2
Protecting=1
Secondly=1
So=1
The=4
Then=1
There=1
They=1
Thirdly=1
Though=1

以上是关于词频统计的主要内容,如果未能解决你的问题,请参考以下文章

Python 分词后词频统计

如何用excel做词频统计?

经典案例词频统计十种实现方式

个人作业——词频统计

词频统计英文和统计中文的区别

python词频统计