有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复,用5分钟时间找出重复出现最多的前10条短信。

Posted k_peng

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复,用5分钟时间找出重复出现最多的前10条短信。相关的知识,希望对你有一定的参考价值。

1,哈希表法

  分成若干组,进行扫描。相同记录只加1次,重复次数加1,之后进行第二次扫描,得出重复次数的前十名。

2,从小到大排序(我觉得最好不用这种方法,准确性不高)

3,内存映射(建议)

  对每条短信的第i个字母按ASCII码进行分组,也就是创建树。i是树的深度,也是短信的第i个字母。

 

以上是关于有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复,用5分钟时间找出重复出现最多的前10条短信。的主要内容,如果未能解决你的问题,请参考以下文章

海量文本信息查Top-k

如何快速安全的插入千万条数据?

从 Azure 表存储的千万条记录中查询一条记录

MySQL数据库千万级数据处理?

Oracle中插入千万条测试数据

在Qt中以二进制形式读取0和1文本文件[重复]