201671010454词频统计软件项目报告
Posted 12zl12
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了201671010454词频统计软件项目报告相关的知识,希望对你有一定的参考价值。
一、课程名称:2016级计算机科学与工程学院软件工程(西北师范大学)
二、课程要求:实验二 软件工程个人项目
三、实验目标:
(1)掌握软件项目个人开发流程。 (2)掌握Github上发布软件项目的操作方法。
四、实验内容:
(一)需求分析
- 程序可读入任意英文文本文件,改文件中英文词数大于等于1个,且能读取容纳英文原版《哈利波特》10万词以上的文章。
- 指定单词词频统计功能:用户可输入从该文本中想要查找词频的一个或任意多个英文单词,运行程序的统计功能可显示对应单词在文本中出现的次数和柱状图。
- 高频词统计功能:用户从键盘输入高频词输出的个数k,运行程序统计功能,可按文本中词频数降序显示前k个单词的词频及单词。
- 统计该文本所有单词数量及词频数,并能将单词及词频数按字典顺序输出到文件result.txt。
(二)功能设计
- 文件的读入输出功能:针对需求一和需求四。
- 键盘输入功能:针对需求二和需求三(用户可从键盘输入查看词频统计个数的的展示)。
- 频词统计功能:针对需求二、三、四(运用程序的统计功能进行词频统计)。
- 排序功能:针对需求三和需求四(按照词频数降序,按照字典顺序排序)。
(三)设计实现
- 该程序共有四个类,包括一个主函数Main.java和三个功能类。主函数Main.java用来控制整个流程(读入文本、单词词频统计、柱状图展示)
- WordCount.java:指定单词词频统计,可显示对应单词在文本中出现的次数和柱状图。
- HighCount.java:用户从键盘输入高频词输出的个数k,运行程序统计功能,可按文本中词频数降序显示前k个单词的词频及单词。
- WordSave.java:统计文本所有单词数量及词频数,并将单词及词频数按字典顺序输出到文件result.txt。
(四)测试运行
- 功能1测试
- 功能2测试
- 功能3测试
- 功能4测试
(五)代码展示
- 读入文本,并将文本内容按照正则表达式截取纯单词文本(即不包含其他字符)
String line = "src/word.txt";
File file = new File(line);
InputStreamReader is = new InputStreamReader(new FileInputStream(file), "utf-8");
BufferedReader buff = new BufferedReader(is);
List<String> list = new ArrayList<String>();//list中只存放纯单词文本
String readLine = null;//单词列表初始为空
while((readLine = buff.readLine())!=null){
String[] WordsArr = readLine.split("[^a-zA-z]");
for(String word:WordsArr){
if(word.length()!=0){
list.add(word);//将截取后的纯单词放入list
}
}
}
buff.close();
- 本段代码实现了最后一个功能:将单词及词频数按字典顺序输出到文件result.txt
File file = new File("src/result.txt");
if(file.exists()) {
file.createNewFile();
}
FileWriter fop = new FileWriter(file.getAbsoluteFile());
for(Entry<String,Integer> entry : Map2.entrySet()) {
fop.write(entry.getKey()+": "+entry.getValue()+"
");
}
fop.close();
System.out.println("存放成功!");
(六)总结
在程序设计过程中,需求分析必不可少。如果一开始就写代码,能写一两个功能,但是要完整地实现整个程序并运行,必须对每个功能模块进行分析。该程序中,涉及到了文本的读入和输出、单词个数的统计以及排序功能,各个功能模块之间虽然都有联系,但最好保证各模块之间的独立性,便于程序的测试和维护。
(七)PSP
PSP2.1 | 任务内容 | 计划共完成需要的时间(min) | 实际完成需要的时间(min) |
Planning | 计划 | 8 | 8 |
Estimate | 估计这个任务需要多少时间,并规划大致工作步骤 | 10 | 10 |
Development | 开发 | 200 | 230 |
Analysis | 需求分析 (包括学习新技术) | 15 | 15 |
Design Spec | 生成设计文档 | 10 | 12 |
Design Review | 设计复审 (和同事审核设计文档) | 2 | 4 |
Coding Standard | 代码规范 (为目前的开发制定合适的规范) | 8 | 8 |
Design | 具体设计 | 15 | |
Coding | 具体编码 | 150 | 220 |
Code Review | 代码复审 | 10 | 10 |
Test | 测试(自我测试,修改代码,提交修改) | 15 | 15 |
Reporting | 报告 | 20 | 20 |
Test Report | 测试报告 | 5 | 5 |
Size Measurement | 计算工作量 | 5 | 5 |
Postmortem & Process Improvement Plan | 事后总结 ,并提出过程改进计划 | 5 | 8 |
(八)经验分享
编写程序不是单纯的写代码,在正式写代码之前,设计显得尤为重要。而且在设计功能模块时不能将所有功能放在一起,要做到功能模块独立性,模块独立是优秀设计的关键,而设计又是决定软件质量的关键环节。其次,要学会正确的查阅资料。
点此查看项目源代码
以上是关于201671010454词频统计软件项目报告的主要内容,如果未能解决你的问题,请参考以下文章