1. 进度:
编码真的真的真的完成了。再也不重构了。
将string改为char数组,增大了哈希表容量,加快了速度。
采用nunit框架单元测试,能够通过自己的单元测试,但是对sample结果还是不一样。
2. 现有模块:
traverse_file:通过io.h遍历文件夹。已经彻底调试过,能应对空文件夹等可能出bug的情况。
- 现有问题:可能不方便移植。
count:由于文件读写太慢,决定字符统计、单词统计两个模块一起进行。这个模块通过输入流,将各个字符分别发送给两个模块,让两个模块各自计数。
count_char:通过字符流统计字符数、行数。
- 现有问题:统计结果和标准sample不同。这里很简单,不会有bug,打算和同学讨论、比对统计结果,以确定标准。
word_pool:快速存取、计数单词与词组。
- WordPool类使用两个拉链式哈希表,分别存储单词与词组。
- 可以将单词的expression(实际表达式)转化为format(去掉数字后缀,全部小写)。将两个单词的expression、format分别拼接成词组的expression、format。
- 单词长度限制为WORD_SIZE,暂定20。该部分不对字符串合法性进行检查。
- 用结构体存取、统计给定的长度有限expression与format,并将长度过长的丢弃。wnode结构体为单词节点,pnode结构体为词组节点。
count_word:通过字符流解析单词,将单词与词组存入word_pool。
主模块:获取命令行参数,调用traverse_file模块获得各个文件名,打开文件流,调用count计数。
3. 废除模块:
cmd_analyse:最简单的模块。只是单纯通过argc、argv读出地址。
- 问题:还不确定助教需要怎样的命令行参数。有可能助教使用的命令行非常简单,以至于解析功能都有点多余……
- 废除原因:似乎对命令行的需求非常简单,直接读取数组即可。