2-2 搜索引擎工作原理简介
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2-2 搜索引擎工作原理简介相关的知识,希望对你有一定的参考价值。
搜索引擎的工作过程大体上可以分成三个阶段:
1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。
(1)蜘蛛
(2)跟踪链接
(3)吸引蜘蛛
(4)地址库
(5)文件存储
(6)爬行时的复制内容检测
2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。
(1)提取文字
(2)中文分词
(3)去停止词
(4)消除噪声
(5)去重
(6)正向索引
(7)倒排索引
(8)链接关系计算
(9)特殊文件处理
3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
(1)搜索词处理
(2)文件匹配
(3)初始子集的选择
(4)相关性计算
(5)排名过滤及调整
(6)排名显示
(7)搜索缓存
(8)查询及点击日志
本文出自 “11934408” 博客,请务必保留此出处http://11944408.blog.51cto.com/11934408/1940669
以上是关于2-2 搜索引擎工作原理简介的主要内容,如果未能解决你的问题,请参考以下文章