第一次个人作业(一)
任务:
1.统计文件的字符数;
2.统计文件的单词总数;
3.统计文件的总行数;
4.统计文件中单词频率,输出频率最高的前十个;
5.统计两个单词(词组)在一起的频率,输出频率最高的前10个。
6.对给定文件夹及其递归子文件夹下的所有文件进行统计
7.在Linux系统下,进行性能分析,过程写到blog中(附加题)
进度:
实际上昨天晚上就已经开始写个人作业了,到目前为止基本完成前三个功能,也已经和同学进行过一些简单的测试
规划:
第四个功能本来打算用二维字符数组来存储单词,但是单词量太大越界了,所以我打算用结构体来对单词的存储。首先结构体中
有单词,有它的哈希值(因为对比相同单词工作量太大,所以我打算把它用哈希函数把单词转换成数字来比较),有它的频数,如果
有新的单词就把它与原单词按字典序比较,选择是否替换,同时频数加一。最后将频数前十的单词输出。
第五个功能目前还没有想到非常好的方法,第六个功能还没有学习怎么在c++里操作文件夹。打算明天先解决第四和第六个问题,
第五个问题与代码优化问题后天再考虑。
函数方面考虑再建两个.h文件,一个hash.h,一个func.h,分别用于写哈希函数与实现统计的函数。