201671010457 朱石景 词频统计软件项目报告
Posted zhushijing
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了201671010457 朱石景 词频统计软件项目报告相关的知识,希望对你有一定的参考价值。
一、需求分析
1、首先要实现单词数量统计。
2、统计出每个单词出现的次数。
3、计算出每个单词出现的频率。
4、统计结果进行可视化输出。
二、功能设计
基本功能:
1、实现单词的词频统计
2、进行高频词汇统计
3、进行单词数量查找
拓展功能:
条形图显示功能
三、环境需求
测试机环境:windows环境
matlab版本:MATLAB R2015b
四、设计实现
该设计实现过程是用MATLAB强大的数据计算与统计能力下实现的,通过定义参数,设置路径实现在该设计界面引导下将任意英文文本文件读入程序之中,然后进行根据空格键检测判断单词,进而根据lower函数将所有单词转换成小写,最后通过tabulate实现统计计算sortrows进行排序。设计界面由MATLAB所提供GUI界面实现。
五、测试结果
词频统计:
生成单词出现次数统计表
显示单词出现频次统计图
六、代码片段:、
word=fileread('C:UsersAdministratorDesktop234.txt'); %读入全文
word=regexprep(word,'W',' '); %不是字符的,都转换为空格。主要是去除标点符号
word=lower(word); %变成小写
words=regexp(word,' ','split')'; %根据空格分隔为单词cell
%至此每个单词都拿出来了
rank = tabulate(words); %rank是三列向量,包括名称,出现次数和百分比
ans=sortrows(rank,-2); %只根据第二列进行排序 -2表示降序
xlswrite('results',ans);%输出为excel文件
七、展示PSP
任务内容 | 计划共完成需要的时间(min) | 实际完成需要的时间(min) |
计划 | 15 | 10 |
估计这个任务需要多少时间,并规划大致工作步骤 | 8 | 10 |
开发 | 180 | 230 |
需求分析 (包括学习新技术) | 15 | 15 |
生成设计文档 | 10 | 15 |
设计复审 (和同事审核设计文档) | 8 | 12 |
代码规范 (为目前的开发制定合适的规范) | 10 | 9 |
具体设计 | 30 | 45 |
具体编码 | 100 | 130 |
代码复审 | 15 | 12 |
测试(自我测试,修改代码,提交修改) | 10 | 12 |
报告 | 15 | 20 |
测试报告 | 15 | 16 |
计算工作量 | 5 | 5 |
事后总结 ,并提出过程改进计划 | 15 | 15 |
八、github源码查看
https://github.com/zhushijing/save/upload
以上是关于201671010457 朱石景 词频统计软件项目报告的主要内容,如果未能解决你的问题,请参考以下文章