第一次个人作业之词频统计

Posted 2020-10-28 eeom

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了第一次个人作业之词频统计相关的知识，希望对你有一定的参考价值。

实验要求

对源文件（*.txt,*.cpp,*.h,*.cs,*.html,*.js,*.java,*.py,*.php等，文件夹内的所有文件）统计字符数、单词数、行数、词频，统计结果以指定格式输出到默认文件中，以及其他扩展功能，并能够快速地处理多个文件。
使用性能测试工具进行分析，找到性能的瓶颈并改进
对代码进行质量分析，消除所有警告
设计10个测试样例用于测试，确保程序正常运行（例如：空文件，只包含一个词的文件，只有一行的文件，典型文件等等）
使用Github进行代码管理
撰写博客

本次作业要求对任意文件或者特定目录下所有文件中的字符、单词、词组做相应的统计分析，并将统计结果输出到result文件中。其中主要有以下需要特别注意的：

VS会自动换行，加空格之类的，在此基础上根据我个人的习惯，结合之前看的一些书，制定了以下规范：

PSP2.1	任务内容	计划完成需要的时间(min)	实际完成需要的时间(min)
Planning	计划	30	30
Estimate	估计这个任务需要多少时间，并规划大致工作步骤	30	30
Development	开发	650	-
Analysis	需求分析 (包括学习新技术)	0	0
Design Spec	生成设计文档	30	-
Design Review	设计复审 (和同事审核设计文档)	10	-
Coding Standard	代码规范 (为目前的开发制定合适的规范)	20	20
Design	具体设计	40	40
Coding	具体编码	400	-
Code Review	代码复审	100	-
est	测试（自我测试，修改代码，提交修改）	50	-
Reporting	报告	240	-
Test Report	测试报告	60	-
Size Measurement	计算工作量	30	-
Postmortem & Process Improvement Plan	事后总结 ,并提出过程改进计划	150	-
Summary	合计	920	-

根据输入的目录或文件名将所有的文件路径以及文件夹保存在vector<string>,对每个文件依次进行统计。
将每个文件的字符流读入一个string，从头到尾进行处理。
单词、词组信息利用C++中的unordered map实现。定义结构体strint,存储字典序最小的str以及对应的频率。对于单词来说，采用unordered_map<string, strint> Wordfre，其中第一个str是去除了单词后缀数字并且全部转化为小写字母的串，便于hash。对于词组来说，采用数据结构unordered_map<string, int> Phrasefre来存储，其中string是2个单词的连接，其中用 _来划分。词组在输出时，拆分，利用Wordfre中的信息更新字母的大小写信息。

以上是关于第一次个人作业之词频统计的主要内容，如果未能解决你的问题，请参考以下文章