博客搜索引擎索引博文数量分析与评估

Posted 张俊林博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了博客搜索引擎索引博文数量分析与评估相关的知识,希望对你有一定的参考价值。

       /*版权声明:可以任意转载,转载时请务必标明文章原始出处和作者信息 .*/                    
         博客搜索引擎索引博文数量分析与评估
        
               CopyMiddle:张俊林
               TimeStamp:2007/1/25                  
  
   我一直希望能够通过一种手段统计出目前博客世界的一些情况,比如现在中文博文大约总数有多少。  比如中国的博客总数有多少,比如博客中的色情狂有多少等等严肃的学术问题。出于这个目的,着手进行 调查,本文主要探讨中文博文数量的总体估计以及各个博客搜索引擎的索引量的评估。 
  
      调查目的:目前各个博客搜索引擎索引博文数量范围。由此推出可能的中文博文数量;   调查方法:抽样调查法。我自己建立一个小的博客搜索引擎,索引博文5000条,然后 挑选高频,中频和低频的词汇作为查询词汇,看看5000篇文章包含多少相关 文章,然后再和目前博客搜索引擎返回的结果数量对比,由此推算出现有博客搜索引擎的索引量。
                 这5000篇相当于对博客世界进行抽样,由于词汇的分布在语料集合里面基本 符合Zipf分布,所以其在不同大小的语料集合的相对比例是满足Zipf分布。而其纵向比较基本能够估算出其索引数量的大小。
       调查范围:自己的5000数据集;百度博客搜索;奇虎博客搜索;有道博客搜索;souyo博客搜索         
                
        示例:
             这里给出部分查询的数据对比信息,真实的查询要大于给出的例子。其中, 横坐标代表查询词,比如“李湘”等代表提交给搜索引擎的查询词;纵坐标是搜索引擎;其中数据代表:有多少文章包含这个查询词,比如  第一个5代表我自己的5000数据中有5篇文章包含查询"李湘".
            
            
                    李湘         黄健翔           研究生          大学            李宇春 
    
       5000数据:  5              80               53              452                  25
      
       百度:      45000          103000          608000       905,000      168,000
      
       奇虎:      34775          83886            456969      4,233,610    102,117
      
       souyo:      1434           1581             10060       121149       3032
      
       有道:       11600        30200            130100       107万         3万7800
      
   
    估算结果:
                                 
                      
        1.平均来说,查询奇虎的返回结果大约是我的5000数据集合返回结果的1万倍左右。所以估计奇虎的索引量
        大约是5000*1万=5000万条博文。
        2. 百度:大约6000-7000万条
        3.有道:大约2000倍左右,5000*2000=1000-1500万左右索引量
        4. souyo: 大约200-300倍之间:5000*200=100万-2百万之间索引量
        
        
    
     排序:百度》奇虎》有道》souyo
    
          奇虎的索引量大约是百度的80%,有道大约是奇虎的30%,souyo大约是有道的10%-15%
            
   
    百度一贯多报查询结果,比如“芭比机器”,返回显示结果1000条,实际上只有760条。所以适当给百度的数量缩水,其索引数量
    应该和奇虎基本相当;也就是说,目前中文博文数量大约是5000万条左右。
   
                           

以上是关于博客搜索引擎索引博文数量分析与评估的主要内容,如果未能解决你的问题,请参考以下文章

MySQL5.5索引数在InnoDB引擎内与索引数在mysql中定义的数量是不一致问题

Elasticsearch-搜索分析器与索引分析器

后端程序员之路 35Index搜索引擎实现分析4-最终的正排索引与倒排索引

02-msyql-存储引擎

希望百度搜索能尽快搜到自己写的博文方法

flask-web—— 搜索系统Elasticsearch分布式搜索引擎原理分片与集群IK中文分析器索引与文档Logstash导入数据与查询