个人项目--词频统计

Posted 林莉

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了个人项目--词频统计相关的知识,希望对你有一定的参考价值。

需求概要

原需求

1.读取文件,文件内包可含英文字符,及常见标点,空格级换行符。

2.统计英文单词在本文件的出现次数

3.将统计结果排序

4.显示排序结果

新需求:

1.小文件输入. 为表明程序能跑

2.支持命令行输入英文作品的文件名

3. 支持命令行输入存储有英文作品文件的目录名,批量统计。

4. 从控制台读入英文单篇作品

程序输入:

1.控制台输入文本

2.英文文本文件

3.英文目录,目录下包含单个或多个英文文本文件

程序输出:

1.英文单词在本文件或控制台输入中的出现的次数,按出现次数排序

2.文本或控制台输入文字的单词数

输出位置:

控制台或指定文件

代码实现

代码有两个分支,1、选择输入文本路径或,2、选择直接输入文章

 1 public static void main(String[] args) {
 2         HashMap<String,Integer> map=new HashMap<String,Integer>();//用于统计各个单词的个数,排序
 3         //过滤字符串中的所有标点符号
 4         String regex=" ?.!:,\"\"‘‘;\n";
 5         BufferedReader br;
 6         try {
 7             //FileReader类创建了一个可以读取文件内容的Reader类、调用构造方法FileReader()
 8             Scanner scan = new Scanner(System.in);
 9             System.out.println("请输入您的输入格式");
10             System.out.println("1、文件完整路径");
11             System.out.println("2、文章内容");
12             int flag = scan.nextInt(); 
13             

小文件输入键盘在控制台下输入命令。在控制台输入文本路径即可进行词频统计。

 1 System.out.println("请输入文件完整路径");
 2  2                     String fileUrl = scan.next();
 3  3                     br = new BufferedReader(new FileReader(fileUrl));//文件完整路径
 4  4                     String sentence;
 5  5                     int wordCount = 0;
 6  6                     try {
 7  7                         while((sentence = br.readLine()) !=null){     //用readLine读取文件,判断读取文件是否为空
 8  8                             sentence = sentence.replaceAll(regex, "");
 9  9                             StringTokenizer token=new StringTokenizer(sentence);
10 10                             while(token.hasMoreTokens()){     //循环遍历
11 11                                 wordCount++;    
12 12                                 String word = token.nextToken();
13 13                                 if(map.containsKey(word)){     //HashMap不允许重复的key,所以利用这个特性,去统计单词的个数
14 14                                 int count=map.get(word);
15 15                                 map.put(word, count+1);     //如果HashMap已有这个单词,则设置它的数量加1
16 16                             }
17 17                             else{
18 18                                 map.put(word, 1);          //如果没有这个单词,则新填入,数量为1
19 19                         }
20 20                     }
21 21                 }
22 22                         System.out.println("总共单词数:"+wordCount);
23 23                         sort(map); 
24 24                     } catch (IOException e) {
25 25                         e.printStackTrace();
26 26                     }
27 27                     break;

运行结果:

 1 请输入文件完整路径
 2 c://english.txt
 3 总共单词数:181
 4 as:7
 5 the:7
 6 not:6
 7 it:6
 8 to:5
 9 are:4
10 a:4
11 your:4
12 in:4
13 they:3
14 live:3
15 and:3
16 of:2
17 do:2
18 may:2
19 by:2
20 be:2
21 clothes:2
22 that:2
23 often:2
24 have:2
25 from:2
26 above:2
27 is:2
28 you:2
29 door:1

 

代码覆盖率就是所写的单元测试所测试到的代码比例。

 

                                                     

 

psp          
    9月26日      
类型 内容 开始时间 结束时间 被打断时间 净时间
查找资料 学习单元测试 9:00 9:48 8 40
测试代码 学习代码测试 15:00 16:08 8 60
修改代码 词频修改 9:08 10:09 11 50
写博客 词频相关 22:30 23:15 5

40

      

 ssh://[email protected]:linliaimeli/FileWord.git

 https://git.coding.net/linliaimeli/FileWord.git

以上是关于个人项目--词频统计的主要内容,如果未能解决你的问题,请参考以下文章

201671010432词频统计软件项目报告

第一次个人项目词频统计——需求分析,代码规范,设计思路

个人项目——词频统计

个人项目----词频统计WEB(部分功能)

个人作业——词频统计

个人项目词频统计2