2-2 搜索引擎工作原理简介

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2-2 搜索引擎工作原理简介相关的知识,希望对你有一定的参考价值。

搜索引擎的工作过程大体上可以分成三个阶段:

1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

(1)蜘蛛

(2)跟踪链接

(3)吸引蜘蛛

(4)地址库

(5)文件存储

(6)爬行时的复制内容检测

2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

(1)提取文字

(2)中文分词

(3)去停止词

(4)消除噪声

(5)去重

(6)正向索引

(7)倒排索引

(8)链接关系计算

(9)特殊文件处理

3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

(1)搜索词处理

(2)文件匹配

(3)初始子集的选择

(4)相关性计算

(5)排名过滤及调整

(6)排名显示

(7)搜索缓存

(8)查询及点击日志


本文出自 “11934408” 博客,请务必保留此出处http://11944408.blog.51cto.com/11934408/1940669

以上是关于2-2 搜索引擎工作原理简介的主要内容,如果未能解决你的问题,请参考以下文章

Solr的工作原理以及如何管理索引库

搜索引擎简介及高级搜索方法

Jetty 的工作原理以及与 Tomcat 的比较

PHP工作原理

搜索引擎简介及常用搜索引擎的高级搜索方法

Tomcat工作原理(转)