搜索引擎原理

Posted 前端那些事儿

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了搜索引擎原理相关的知识,希望对你有一定的参考价值。

1.1 搜索引擎工作原理

搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。


搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查询。

  • 页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供了数据支持。

  • 页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提取页面的正文信息,并对正文信息进行分词等,为后续建立关键字索引及关键字倒排索引提供基础数据。

  • 页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。

  • 关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配,再向用户返回相应的页面排序列表。


1.1.1 搜索引擎抓取策略

搜索引擎对网页的抓取实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是想方设法地提高它的数据采集能力。


搜索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者机器人程序。


1. 页面抓取流程

图 2-1 搜索引擎抓取页面简单流程


URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。


而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的方法。



  • 百度:http://www.baidu.com/search/url_submit.htm。

  • 360:http://info.so.360.cn/site_submit.html

  • 搜狗:http://www.sogou.com/feedback/urlfeedback.php

  • Google:http://www.google.com/addurl/(需要注册使开通站长工具才能提交)。


第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关性,一般情况下,2~7天左右就会被搜索引擎收录。


2. 页面抓取

通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜索引擎收录页面的工作原理开始。


如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。


3. 页面抓取方式

通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。


页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数量。


常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页面抓取方式及其优缺点。


  • 广度优先
    如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品或者内容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。
    我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程,如图2-2所示。
    搜索引擎原理
    图 2-2 广度优先抓取流程


  • 深度优先
    与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,这样才能满足更多用户的需求。
    我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图2-3所示。
    搜索引擎原理
    图 2-3 深度优先抓取流程


  • 大站优先
    由于大型网站比小型网站更有可能提供更多更有价值的内容,因此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息抓取策略。
    怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。
    在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时的原因之一。


  • 高权重优先
    权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。
    高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页抓取策略。网页权重(如Google PageRank值)高低往往是由诸多因素决定的,例如,网页的外部链接数量及质量。如果下载一个URL就重新计算所有已下载URL资源的权重值,这样的效率是极其低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干URL资源后就对已下载的URL进行权重计算(即不完全的权重计算),以此来确定这些URL资源所对应页面的权重值,从而对较高权重值的网页进行优先抓取。
    由于权重计算是基于部分数据而得出的结果,可能会与真实权重有较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能会对次要页面进行优先抓取。


  • 暗网抓取
    暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术或者人工发起查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信息。
    1. 查询组合
    暗网数据普遍存在于大型网站中,最常见的表现形式就是网站的搜索功能(包括组合条件查询及文本检索)。例如,旅游网站的机票数据,由于数据量极其巨大,通过链接的方式显示所有的机票信息是不现实的。因此,该类网站通常会提供相应的搜索功能供用户使用,以便用户能够快速检索个人化的需求信息。图2-4是某旅游垂直网站的机票搜索功能,用户可以通过航程类型、出发城市、到达城市、出发时间及返回时间等多条件组合来检索机票信息。
    搜索引擎原理
    图 2-4 机票搜索工具
    在互联网上,暗网数据量是极其巨大的,但不是所有的暗网数据都是有价值的,这就要求搜索引擎需要有特殊的蜘蛛程序对这些暗网数据进行挖掘及识别。
    例如,图2-5所示是某人才网的高级搜索功能,至少包含了8个查询条件,如果搜索引擎将每一个条件组成不同的查询组合提交给网站,这样不但会给网站的服务器带来极大的压力,而且对于蜘蛛程序来说也是一个灾难(暂且不论每种条件组合的查询条件得到的查询结果能得到有价值的信息)。
    搜索引擎原理
    图 2-5 职位搜索工具1
    因此,搜索引擎通常只会对有可能返回有价值信息的查询条件进行组合。如图 2-6所示,对于一些主要的条件如行业分类、职位分类、工作地点进行组合查询即可找到该站的有价值信息。
    搜索引擎原理
    图 2-6 职位搜索工具2
    2. 文本检索
    对于大多数网站而言,文本检索(即站内搜索)是最常见的搜索功能。因此,文本检索也是最常见的暗网数据获取方式之一。图2-7所示为当当网的站内搜索功能,搜索引擎通过人工整理一些种子关键字,向目标网站提交进行查询,除了抓取查询结果页面外,还会从已抓取回来的页面中提取出新的关键字,进而形成新的待查询关键字列表。
    搜索引擎原理
    图 2-7 当当网搜索栏


  • 用户提交
    为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面(如Sitemap方式提交)。网站管理员只需把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。
    这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率,也大大增加了网站页面被抓取的数量(目前主流的搜索引擎都支持这种页面抓取方式,如Google、百度及搜狗等)。

说明 为了提高抓取页面的效率及质量,搜索引擎会结合多种策略去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可能宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更多隐蔽的页面;最后,结合暗网抓取、用户提交等方式抓取那些被遗漏的页面。


4. 如何避免重复性抓取

在互联网中,信息重复是在所难免的。然而,搜索引擎是怎样识别重复信息的呢?怎样判断哪些网页的信息是原创的,哪些是复制的?又会认为哪些重复的信息是有价值的,哪些是可以舍弃的?


网站中的重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对页面进行分析的时候,必须具备识别重复信息的能力。因为大量的重复信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时间,降低用户体验。但这并不意味着所有重复信息都是没价值的,搜索引擎认为转载内容不如原创内容重要,赋予原创内容页面更高的权重,而镜像内容则几乎忽略。


  • 转载页面
    转载页面是指那些与原创页面正文内容相同或相近的页面。然而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分成N个区域并进行比较,如果其中有M个区域(M是搜索引擎指定的一个阈值)是相同或者相似的,则认为这些页面互为转载页面。
    如图2-8所示,页面1与页面2是不同网站上的两个页面。其中,框中的A、B分别是两个不同页面上的正文内容。为了识别这两个页面是否互为转载页面,搜索引擎先把这两个页面的正文内容分成4个区域进行比较。假设这4个区域中有3个是完全相同或者相似的,那么就认为这两个页面是互为转载的。
    搜索引擎原理
    图 2-8 页面正文内容对比
    在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最后修改时间(搜索引擎在抓取页面时已经存储的附加信息,详见后面“页面存储”的内容)、页面权重等因素判断原创页面与转载页面。


  • 镜像页面
    内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个区域的内容完全一样,则认为这些页面互为镜像页面。然后,再综合多项因素(例如页面权重值、页面最后修改时间等)来识别哪个是源页面,哪个是镜像页面。
    如图2-9所示,页面1及页面2是不同网站上的两个页面。把这两个页面分成三个区域(即A-1、A-2、A-3与B-1、B-2、B-3)进行比较,如果这三个区域内容完全一样,则认为这两个网页互为镜像页面。
    搜索引擎原理
    图 2-9 页面对比


  • 镜像网站
    狭义上的镜像网站是指内容完全相同的网站,形成镜像网站主要有两种情况:第一种是多个域名或IP指向同一服务器的同一个物理目录;另外一种是整个网站内容被复制到使用不同域名或者不同IP的服务器上。
    为了识别站点间是否互为镜像网站,搜索引擎首先判断这些网站的首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互为镜像网站。然后,再综合多项因素(例如网站权重值、建立时间等)来识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面的时候就集中在源网站中进行,这也是为什么搜索引擎对于镜像网站只抓取极少页面甚至是不抓取的原因。

搜索引擎通过算法消除页面中的辅助信息(如导航栏、图片等)后,就得到页面的正文内容。


5. 网页更新策略

由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取、分类定位抓取、历史更新策略及用户体验策略。


  • 定期抓取
    定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。
    定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面的变化情况。例如,某个页面的内容更新以后,至少需要30~60天才能在搜索引擎上有所体现。


  • 增量抓取
    增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控是不现实的。基于重要页面携带重要内容的思想以及80/20法则,搜索引擎只需对网站中部分重要页面进行定时的监控,即可获取网站中相对重要的信息。
    因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。
    由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,还可以及时向用户展示页面中最新的内容。


  • 分类定位抓取
    与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就可以定为一天或更长。
    分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门户网站中内容的更新速度就会比其他小型网站快得多。所以,还需要结合其他的方式(例如增量抓取等)对页面进行监控和更新。
    实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减少搜索引擎的负担,又可以为用户提供及时的信息。
    例如,一个网站中会存在多种不同性质的页面,常见的包括:首页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首页),可以使用增量抓取方式对其进行监控,这样就可以对网站中相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页面,还需要采用定期抓取的方式。


  • 历史更新频率策略
    历史更新频率策略基于这样一种思想:某个网页在过去某段时间内频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对于某网站的首页,通过对它进行的监控可以分析出它的内容更新规律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时获得网页中的最新内容。


  • 用户体验策略
    所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更新的及时性是其中一项重要因素。
    对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息的需求。

80/20法则是意大利著名经济学家维尔弗雷德·帕累托发现的,其核心思想是20%的活动能产生满足80%需求的物质。例如,20%的产品或者服务创造了80%的利润,20%的内容满足80%用户的需求。


6. 页面存储

通过以上内容,我们已经知道了搜索引擎对页面的抓取及维护方式,接着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能满足接下来的工作对数据的需求。



1.1.2 页面分析

页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。


如图2-10所示,搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。


搜索引擎原理

图 2-10 网页分析、处理流程


1. 网页索引


2. 网页分析

网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。


  • 正文信息提取
    网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,最为重要的就是对网页中标签信息(例如,HTML标签、javascript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。


  • 切词/分词经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分(也就是我们常说的切词或者分词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优劣主要取决于开发者对语言的理解能力。特别是在中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。在中文环境里,常见的分词方法包括字符串匹配分词及统计分词两种,下面简单介绍一下这两种中文分词算法。

    • 字符串匹配分词是基于一个足够大、足够权威的“词典”上进行的。如果页面上的词与“词典”中的词匹配,则为命中。这样就可以得到一个词或者短语。

    • 统计分词是根据相邻的两个(或者多个)字出现的概率判断这两个(或者多个)字组合后是否会形成一个词。统计分词也常常会结合“词典”进行匹配,常用于识别一些新词汇。例如,“微博”等一些在传统中文语言中不存在的词汇。


  • 关键字索引
    网页正文信息在经过切词系统处理后,形成了关键字列表。关键字列表中的每条记录都包括了该关键字所在的关键字编号、网页编号、关键字出现次数以及关键字在文档中的位置等信息,如表2-1所示。
    表 2-1 关键字列表


关键字编号 网页编号 关键字 次数 位置
记录1 1 1 K1 3 A1,A5,A7
记录2 2 1 K2 2 A3,A9
记录3 3 1 K3 3 A6,A13,A10
记录4 4 1 K4 1 A2

例如,记录1中的关键字K1在页面中出现了3次,对应页面中的A1、A5、A7区域,如图2-11所示。
搜索引擎原理
图 2-11 关键字K1在页面中的分布示意图
为了提高对关键字的检索效率,搜索引擎还会为关键字列表建立索引。这样,经过对网页及关键字列表都建立索引后,就可以实现从一个网页快速定位到某一关键字。
例如,网页0经过信息过滤后得到的内容是“中国广东省深圳市”;然后,对内容进行切词后产生关键字“中国”“广东省”“深圳市”,并对关键字建立索引。这样,根据网页0,搜索引擎就可以快速定位到关键字“中国”“广东省”或“深圳市”上,如图2-12所示。
搜索引擎原理
图 2-12 页面与关键字间的对应关系
然而,用户是通过关键字去寻找那些承载相应信息的页面的,所以,搜索引擎还需要对已有信息进行相应的处理,建立关键字与页面URL间的对应关系表,从而实现根据关键字快速定位到多个页面的功能,这就是下面所说的关键字重组问题。


  • 关键字重组
    为了迎合用户寻找信息的习惯,即以关键字为条件寻找与关键字相关的页面。因此,搜索引擎需要建立以关键字为主索引的一个关键字对应多个页面的关系表,即关键字反向索引表。而建立关键字反向索引表最重要的任务就是对所有页面中的关键字列表进行重组。
    之前对关键字建立索引后,已经产生了网页与关键字的一对多的对应关系。接下来,搜索引擎把所有页面中的关键字进行重组,并建立关键字索引,从而形成一个不重复的关键字列表集合,即在关键字列表中,每个关键字都是唯一的。这样,通过某一个特定的关键字就可以找到一个或者多个网页,从而实现根据关键字返回相应页面的功能,如图2-13所示。
    搜索引擎原理
    图 2-13 关键字与页面间的对应关系

关键字重组即把所有页面中的关键字组成一个集合。

经过对原始页面进行分析、处理后,搜索引擎已经可以根据用户的查询条件返回相应的页面列表。但是,简单地向用户返回这个页面列表,往往不能满足用户的需要,所以,搜索引擎还会根据页面与用户查询条件相关性的高低再对这个列表进行重新排列,然后把处理后的列表返回给用户。这就是下面将要向大家介绍的搜索引擎对页面排序的问题。

1.1.3 页面排序

用户向搜索引擎提交关键字查询信息以后,搜索引擎就在搜索结果页面返回与该关键字相关的页面列表,这些页面按照与关键字的接近程度由上至下进行排列。决定页面排列次序的因素非常多,将介绍几种最常见也是最重要的因素,包括页面相关性、链接权重及用户行为。


1. 页面相关性

页面相关性是指页面内容与用户所查询的关键字在意义上的接近程度,主要由关键字匹配度、关键字密度、关键字分布及关键字的权重标签等决定。


  • 关键字匹配度是指页面P中的内容与用户所查询的关键字K之间的匹配程度,主要由以下两个因素决定。

    • 页面P中是否存在与查询条件关键字K相匹配的内容,即页面内容中是否包含关键字K。

    • 关键字K在页面P中出现了多少次,即页面P中有多少个关键字K。


  • 为了计算关键字匹配度,搜索引擎为每个页面分配一个关键字匹配值,该值由关键字在页面中出现的次数决定。假设某个关键字在页面中出现一次,关键字匹配值为10,那么,若该关键字在页面中出现10次,则关键字匹配值=10*10。
    如果这种假设成立,则某关键字在页面中出现的次数越多(即词频越高),页面的相关性就越高,这样搜索结果就极容易被网站所有者操控。例如,一个网站想要提高页面的相关性,只需在页面中添加足够多的关键字即可。
    因此,关键字词频决定页面相关性的做法是极不合理的,还需要结合关键字密度、关键字分布及关键字的权重标签等多方面来制约。


  • 关键字密度
    为了有效防止网站所有者恶意操控搜索结果,搜索引擎根据关键字词频与网页总词汇量的比例(即关键字密度值)来衡量页面中某关键字的词频是否合理。
    假设页面中某关键字的密度为50%时,这个页面的关键字密度值为20。例如,在内容是camcorder battery的页面中,camcorder的关键字密度是50%,则针对关键字camcorder,这个页面的关键字密度值为20。


  • 关键字分布
    关键字分布,即关键字在页面中出现的位置。关键字在页面中不同的位置上出现会对页面的相关性带来一定的影响。搜索引擎通过记录关键字在页面中出现的位置来计算页面的关键字分布值,从而得到关键字分布与页面相关性之间的关系。
    假设关键字在页面的顶部出现时,关键字分布值为50;而在底部出现时,关键字分布值为10;则关键字K1同时出现在页面A的顶部与底部时,该页面的关键字分布值就是60。


  • 标签影响
    在网页中,网页制作者利用不同的HTML标签使页面中相关的内容实现不同的视觉效果(例如字体的样式、字号、颜色等),灵活地运用各种HTML标签还有助于提高页面相关性。
    我们在阅读文章的时候,经常会遇到文章中某些内容的表现形式与周围的内容是存在明显区别的,例如,某些内容的字体颜色与周围的内容会形成强烈的反差,或者字号大小不一致等。
    这就说明了文章的作者是刻意要突出这部分内容,这部分内容比较重要。同样,在对网站进行优化的时候,我们也可以使用同样的方法来突出页面中重要的内容,例如,利用不同的HTML标签去标注页面中需要突出的内容。这样,搜索引擎在分析页面的时候就会根据HTML标签识别页面中内容的样式,从而判断页面中哪些内容更加重要。
    在页面权重分配里,按照标签的作用,可以把HTML标签分为权重标签与非权重标签两大类。权重标签是指会影响页面权重的标签,常见的权重标签包括<b><h1>等;而非权重标签常见的有<img><br>等。
    假设表2-2中是搜索引擎对某些标签权重值的定义,则对于一个内容是<h1><b>搜索引擎优化</b></h1>的页面,针对“搜索引擎优化”这个关键字,标签权重值等于<b>标签权重值加上<h1>标签权重值,即60。
    表 2-2 样式标签与权重值的对应关系

标签名称 标签权重值
<b> 10
<H1> 50
  • 通过对关键字匹配度、关键字密度、关键字分布及权重标签进行说明后,我们推算出页面相关性的计算公式如下:
    W (relevance)=W (match)+W (density)+W (position)+W (tag)
    式中,W (relevance)是页面相关性,W(match) 是关键字匹配值,W(density) 是关键字密度值,W(position) 是关键字分布值,W(tag) 是标签权重值。
    例如,某页面的内容如下:<html><body><b>搜索引擎优化</b><h1>搜索引擎</h1>……</body></html>,则针对“搜索引擎优化”这个关键字来说,由于只出现一次,则关键字匹配值W(match)=10;关键字密度是50%,则关键字密度值W(density)=20;关键字出现在页面的顶部,则关键字分布值W(position)=50;而权重标签<b>在突出关键字“搜索引擎优化”时出现了一次,则标签权重值W(tag)=10,即W(relevance)=10+20+50+10。


搜索引擎利用关键字匹配度、关键字密度、关键字分布及权重标签这四大要素相互制约的作用,完善页面相关性的计算。但是,本节所介绍的都是一些网站内部可操控因素。为了提高排序中信息的质量,搜索引擎还引入了一些外部不可操控的因素对页面相关性进行综合评估,例如外部链接与用户行为等。


2. 链接权重

链接主要分内部链接及外部链接两种,是网页制作或者编缉者在对页面内容进行规划或者编缉时加入到页面中的,加入的理由可能是该链接所指向的页面非常重要或者是大部分用户所需要的。因此,某一页面得到的链接越多,从一定程度上反映了该页面越重要,链接权重值就越高。


如果把整个互联网看作是一个有向图,超链接为有向边,网页为节点,那么,绝大部分网页都会有一个“入度”与“出度”,根据网页的入度数量及提供入度的页面权重值来计算页面链接的权重是一个非常好的想法。


假设图2-14是页面之间的关系图,其中V1、V2、V3为网页;而箭头方向则代表页面贡献链接或从其他页面中得到的链接。以网页V2为例,V2对V1、V3各贡献了一个链接,而得到了V1的链接。

搜索引擎原理

图 2-14 页面关系图

  • 内部链接
    内部链接是指网站内部页面之间的链接关系,体现了网站内部对某个页面的认可程度。理论上,页面获得的链接质量越高、数量越多,其重要性也相对越大。


  • 外部链接
    外部链接指本站以外的页面之间的链接关系。由于外部链接的不可操控性,外部链接在整个链接关系中占着更大的权重比例,是决定整个页面权重最重要的因素。


  • 默认权重分配
    网站页面数量是在不断变化的,但由于时间的关系,新增加的页面即使内容质量很高,得到的链接数量也是有限的,因此链接权重值通常会很低。在这种情况下,搜索引擎就需要对这些新页面的链接权重值按照相应的方案进行补偿,使得新页面能够得到更合理的链接权重值。
    在链接权重值补偿方面,搜索引擎把页面被抓取的日期作为一个参考因素。它认为页面在单位时间内获得链接的数量越多、质量越高,则该页面的质量也相对更高。
    例如,页面A得到30个链接,页面B也得到30个链接(假设这些链接的质量是相等)。但是,页面A花了100天时间,而页面B只花了1天时间。这从一定程度上反映页面B比页面A更重要。因此,就需要给页面B进行一定的补偿,使得页面B所得链接权重值高于页面A。


3. 用户行为

搜索引擎在完成页面基本权重计算以后,就可以向用户展示初步的排序结果。但这个排序结果不一定能让大部分用户满意,因此还要结合其他因素对该排序结果进行改进。例如,统计每条搜索结果的点击次数来推测用户对搜索结果的偏好。


用户对搜索结果的点击行为是衡量页面相关性的因素之一,是完善排序结果、提高排序结果质量的重要补充,属于外部不可操控因素。


综上所述,搜索引擎通过计算页面在页面相关性、链接权重值及用户行为等方面的得分,得到页面的总权重值;然后,再按照页面的总权重值从高到低进行排序并把这个经过排序的列表返回给用户。

即W(page)= W(relevance)+ W(link)+ W(user)

式中,W(page)是页面权重值,W (relevance) 是页面相关性值,W (link) 是链接权重值,W (user) 是用户行为得分。

1.1.4 关键字查询

在计算完所有页面的权重后,搜索引擎就可以向用户提供信息查询服务。搜索引擎查询功能的实现非常复杂,用户对返回结果的时间要求也非常高(通常是秒级),要在这么短的时间内完成这么复杂的计算是不现实的。所以,搜索引擎需要通过一套高效的机制处理来自用户的查询。这主要应该包括:


  • 在用户发出查询请求前就完成被查询关键字的反向索引、相关页面权重计算等工作。

  • 为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。


其中,关键字重组、页面权重分配等工作已经在前面进行了详细的说明。接下来,就介绍搜索引擎如何建立信息查询的缓存机制。


1. 查询流程

首先,向大家介绍搜索引擎处理用户查询的流程,如图2-15所示。

搜索引擎原理

图 2-15 查询处理流程

1. 先对用户提供的查询条件进行切词,并删除查询条件中没有意义的字或词,例如,“的”“得”等停用词。

2. 再以切词结果作为条件在关键字反向索引列表中进行匹配。

3. 如果存在匹配结果,则把所有与关键字相匹配的页面的URL组成一个列表。

4. 最后,把匹配的页面按照权重值从高到低进行排序,并返回给用户。

其中,3、4 两个步骤在用户查询之前已经完成。

例如,用户查询“手机图片”,搜索引擎对其进行切词后得到的查询条件是“手机+图片”;再把“手机+图片”在关键字反向索引列表中进行匹配;结果得到了A、B、C这三个相关页面;再计算三个页面的权重值,如果这三个页面的权重值关系是B>C>A,则这三个页面在搜索结果列表中的排列顺序就是B、C、A。


2. 用户行为

用户在搜索引擎中的行为主要包括搜索及点击,搜索是用户获取信息的过程,点击是用户得到需要信息后的表现。

搜索引擎通过对用户行为的分析可以进一步发掘用户的需求,提高搜索结果的精准度。例如,从用户的搜索行为中,搜索引擎还可以发现新词汇;而从用户对搜索结果的点击行为中,可以分析出用户对每个搜索结果的偏好等。


  • 搜索是用户获取信息的途径,是搜索引擎最基本的功能。搜索引擎可以在用户的搜索行为中得知某一关键字被搜索的次数,通过对关键字被搜索的次数的分析,可以发现新词汇,进一步了解用户搜索习惯。由于语言是不断发展的,随着时间的推移会产生更多的新词汇。特别是在互联网环境中,某个热点的事件也有可能成为一个新的词语,例如“艳照门”等。对搜索引擎而言,新生词汇主要是指那些目前搜索引擎词典系统里不存在、但是又被频繁搜索的关键字。如果某一关键字在搜索引擎词典系统里不存在,则切词时就不会产生该关键字,这样用户在查询该关键字时就返回不了相关的信息,也就不能满足用户的需求。因此,搜索引擎对新词汇的学习能力从一定程度上反映了搜索引擎对语言的理解能力,是衡量搜索引擎好坏的重要指标之一。结合用户搜索习惯与页面内容去发掘新关键字是搜索引擎学习新词汇的主要方式之一,如图2-16所示。搜索引擎原理图 2-16 新词汇识别流程

    • 对用户查询日志进行分析,筛选出日志中查询相对频繁的词汇。

    • 如果某个查询相对频繁的关键字不存在于词典系统中,就把这个关键字与部分页面的内容进行匹配;如果命中,则表明该关键字是存在的,加入词典系统;否则,对下一个查询频繁词语进行匹配。


  • 点击
    点击是用户找到所需信息后的表现,反映了用户对信息的关注。因此,用户对链接的点击也是衡量页面相关性的一个因素,是衡量页面相关性的一个重要补充。
    在同一个关键字的搜索结果列表中,不同的用户会有不同的选择。但是,如果某一个结果的点击次数明显多于其他结果,则从一定程度上反映了该页面是大部分用户所需要的(特别是当该链接处在比较靠后的位置时)。
    众所周知,搜索结果中越靠前的链接得到点击的几率就会越高。按照这样的逻辑,那么在排在第二、第三甚至第四的页面被点击的机会就会变得越来越小,但这并不代表这些页面就不比排在前面的页面重要,只是在目前的排序结果中,用户还没机会发现它们而已。所以,对于不同位置上链接的点击,搜索引擎会对其权重值进行相应的补偿。假设排在第一位的结果每被点击一次会产生1分的补偿,而排名在100名的结果被点击一次则会产生10分甚至更多的补偿。


3. 缓存机制

为了能在极短的时间内响应用户的查询请求,搜索引擎除了在用户提交查询信息前就生成关键字对应的页面排序列表以外,还需要为那些查询最频繁的关键字对应的页面排序列表建立缓存机制。


经过统计,搜索引擎发现关键字查询的集中现象非常明显。查询次数最多的前20%的关键字大约占了总查询次数的80%(即著名的80/20法则)。因此,只要我们对这20%左右的关键字建立缓存就可以满足80%的查询需求。


由于用户查询时返回的信息主要是与关键字相关的页面排序列表,因此关键字缓存机制的建立主要是针对与关键字相关的页面排序列表。在对常用关键字的页面排序列表建立缓存后,搜索引擎就可以把缓存中的信息返回给用户,这样速度就会非常快,也就能满足绝大部分用户的需求。


由于互联网中的信息是时刻都在增长的,如果搜索引擎每次都向用户返回同样的信息,那么不但用户得不到更高质量的信息,其他网站也不能向用户展示最新的高质量信息,从而造成信息滞后。因此,搜索引擎还会对缓存中的内容进行定期更新。


1.2 搜索引擎特色算法

为了不断提高查询结果的效率与质量,搜索引擎会不断地对自身的算法进行改进。在过去的几年里,主流搜索引擎(特别是Google)进行了数次重要的算法升级。这里向大家介绍几个重要的算法,包括TrustRank、BadRank及百度的绿萝算法。


1.2.1 TrustRank算法

TrustRank(信任指数),是基于网页与可信任网页之间的链接关系及传播深度来计算网页间信任程度的算法,目的是从互联网中筛选出质量相对较高的网页。


TrustRank算法认为,如果某网页与可信任网页之间存在链接关系,那么链接深度越小,该网页的可信任指数就会越高,权重就会越大。通过TrustRank算法,搜索引擎可以找到互联网中相对权威的网站或者网页,如果进一步细分至不同行业,就可以挖掘出不同行业中的权威网站或网页。TrustRank算法属于信任传播类模型,主要有两步工作流程。


1. 可信任网页集合筛选。TrustRank算法通过人工审核的方式来判断某个网页是否属于可信任网页,从而将可信任网页加入到可信任网页集合中(即网页白名单)。由于互联网上存在着海量的网页,因此需要通过相应的算法进行预过滤,再对符合条件的网页进行人工筛选。


2. 网页信任值的传播计算。网页信任值的传播涉及两个方面的问题:一是可信任网页外出链接数量,二是网页与可信任网页之间的链接深度。


  • 可信任网页外出链接数量
    一个可信任网页包含的外出链接数越多,被链接的网页得到的信任值就会越小,反之亦然。假设某个可信任网页的信任值是100,它存在10个外出链接,如果被指向的网页对信任值进行平均分配,则每个网页的信任值就是10。


  • 网页与可信任网页的链接深度
    TrustRank算法除了计算存在直接链接关系的网页外,还会计算存在间接链接关系的网页。间接链接关系可参考图2-17,A是可信任网页,A与B存在直接链接关系,B与C存在直接链接关系,那么C与A之间就是间接的链接关系。
    搜索引擎原理
    图 2-17 网页间的链接关系
    网页与可信任网页之间的链接距离越大,可信任度就越小。通过以上两种策略计算出某网页的可信任指数,可信任指数越低,该网页的可靠性就越差,权重就越低。


1.2.2 BadRank算法

BadRank算法基于一个这样的假设:如果某个网页与一个不可信任或具有作弊行为的网页之间存在链接关系,那么该网页也有可能存在作弊行为。与TrustRank算法刚好相反,BadRank算法最主要的目的是从互联网中筛选出质量低下的网页。


BadRand算法与TrustRank算法的工作原理极为相似,首先是确定一批不可信任网页集合(即网页黑名单),再通过网页与不可信任网页间的链接关系及链接距离计算出网页的不信任值,从而确定某个网页是否为不可信任网页。


1.2.3 百度绿萝算法

百度绿萝算法是针对垃圾链接发布的。


百度官方于2013年2月19日发布了绿萝算法1.0版本,主要针对超链中介、出卖链接网站及购买链接网站,是首次明确禁止链接买卖行为。2013年7月1日,百度官方发布了绿萝算法2.0版本,这次主要是针对软文发布平台,包括软文发布网站及软文受益网站。


这两次算法更新影响到了国内大部分网站。如果你的网站存在百度绿萝算法禁止的行为,建议你采取以下措施。

  • 停止买卖链接的行为,不管是文本链接的购买还是软文链接。

  • 清理已经购买的文本链接。

  • 利用百度管理员工具的拒绝外链管理功能对以前发布软文的站点进行链接拒绝。

  • 停止发外链行为,包括论坛、博客等。


1.3 搜索引擎介绍

搜索引擎优化的一个主要任务是提高网站的搜索引擎友好性,因此学习搜索引擎优化还需要熟悉各主要搜索引擎的习性。下面将介绍四类主流搜索引擎:Google、百度、搜狗及360搜索。


1.3.1 Google

Google是基于全文索引的搜索引擎,源于斯坦福大学的BackRub项目,由Larry Page及Sergey Brin 主要负责。1998年,BackRub更名为Google,并成立公司。发展至今,Google搜索涉及全球多种语言,是目前最有影响力的搜索引擎,如图2-18所示。

搜索引擎原理

图 2-18 Google中文首页6

2010年3月,由于众所周知的原因,Google宣布退出中国市场,其在中国大陆的市场份额已经所剩无几,均被其他搜索引擎瓜分,其中最大的得益者非百度莫属。


Google是目前世界上最大的搜索引擎,先进的算法被争相模仿。因此,加深对Google的了解可以帮助我们更好地认识其他搜索引擎。


在搜索引擎优化方面,我认为Google与其他搜索引擎主要存在以下明显的区别。

  • Google十分重视链接关系,对于链接的质量、数量及相关性方面的分析技术在业界更是遥遥领先。尽管百度、搜狗及必应也非常重视链接关系,但对于链接的质量及相关性方面的分析远不如Google。

  • 在切词算法上,Google与其他中文搜索引擎也存在一定的区别。

  • 在对待新网站方面,Google非常严格,新网站只有同时满足多个条件时,才能正常参与排名竞争,这就是所谓的“沙盒效应”。这样做可以有效避免垃圾网站,但同时也给一些新的优秀的网站诸多制肘,很难通过Google向用户展示其极具价值的信息。

  • 在对垃圾信息处理方面,尽管Google目前还是以人工为主,但与其他搜索引擎相比,Google Spam检测算法已经比较成熟。对于一些常见的作弊手段,例如伪装(cloaking)、门页(doorway page)、堆砌关键字、隐藏文字、垃圾链接等,Google可以轻易识别。


1.3.2 百度

作为中文搜索引擎的统治者,也许百度的技术不如Google。但是,百度在中国大陆的市场占有率方面远比Google大得多。因此,加深对百度的认识也是非常必要的。百度首页如图2-19所示。


自Google退出中国市场,百度在中国大陆的搜索市场份额就一路飙升,最高时号称占领中国大陆79%的搜索市场份额,直至360及搜狗的发力才有所回落。

搜索引擎原理

图 2-19 百度首页

  • 如果把决定页面权重的因素分内部因素与外部因素两大类,在百度中,内部因素与外部因素在影响页面权重方面的差距比较小。

  • 百度对新网站比较宽松,这就造成了搜索结果中充斥着大量的垃圾信息,严重影响了用户体验。

  • 百度也非常重视链接关系,对于被高质量页面链接的页面会赋予极高的权重,但不太重视链接关系中网站间的主题相关性。

  • 百度对搜索结果的人工干预非常强。


1.3.3 搜狗

搜狗是搜狐公司于2004年推出的互动式搜索引擎,经历了将近10年的发展,搜狗的检索技术不断地成熟,在中文搜索引擎中也占有一席之地。特别是在2013年宣布与腾讯搜搜合并后,其覆盖人群进一步扩大,成为中文搜索引擎的一支后起之秀,号称市场占有率达12%。图2-20为搜狗首页。

搜索引擎原理

图 2-20 搜狗首页


1.3.4 360搜索

360于2013年8月推出了自有搜索引擎360搜索,凭借巨大的浏览器安装率,360搜索自上线之日起即获得相当可观的市场占有率。半年内更是攻城掠地,不仅将原Google的市场份额洗劫一空,更是不断深入百度及搜狗的腹地,成为中国大陆不可小视的力量,更让百度寝食难安。图2-21为360搜索首页。

搜索引擎原理

图 2-21 360搜索

不管是百度、搜狗还是360,他们在搜索方面的技术都存在很多相似之处,我们不太可能分别针对三大不同的搜索引擎来优化我们的网站。我的原则是在满足百度的基础之上,兼顾其他的搜索引擎。

了解搜索引擎的工作原理是开展搜索引擎优化工作的基础。只有充分掌握搜索引擎工作的流程及原理,我们才能更好地规划网站,提高网站的搜索引擎友好性。


2.1谷歌历年核心算法


2.1.1 熊猫算法(Panda Algorithm)

  • 时间:2011年2月

  • 目标:针对网站内容改进的一个算法

打击对象:重复内容、关键词堆砌、短空内容、用户/程序生成的低质量页面。

改进方案:其实就是提高内容质量度,并且提高有效页面比例。


2.1.2 企鹅算法(Penguin Algorithm)

  • 时间:2012年4月

  • 目标:针对链接的算法

打击对象:使用链接农场、站群、垃圾链接堆砌、付费链接等,获取搜索引擎权重的网站。

改进方法:杜绝使用以上方式进行外链的制作,如果有遇到垃圾链接指向了你的页面,屏蔽对应的外链。


2.1.3 蜂鸟算法(Hummingbird Algorithm)

  • 时间:2013年8月

  • 目标:针对搜索意图的一次算法升级

谷歌对你的页面内容进行分析,即使标题中没有提及的关键词,只要内容相关也可以参与对应的关键词排名。例如同义词,长尾词的处理等。蜂鸟算法当中并没有打击对象,但确实对部分网站的流量有巨大的影响。

改进方案:通过关键词研究,更好的分析用户的搜索意图。同时在内容当中植入LSI关键词(Latent Semantic Indexing,和种子词汇含义比较接近的词汇),并合理的将网站进行主题的分类。


2.1.4 飞鸽算法(Pigeon Algorithm)

  • 时间:2014年6月

  • 目标:针对Local SEO

当时网站数据下降,很多站长都叫做 “被鸽了”,指的就是这次算法

这个算法没啥好说的,主要针对Local SEO。也可以称之为地域词汇。在不同的地域即使搜索相同的词汇,也会显示不一样的结果。当然并不是所有的搜索词汇都会受到这个算法的影响。一些通用词是没有影响的。

如果你希望在特定地域,参与特定关键词排名的话,可以按照如下的方法来推进地域的SEO优化。

  1. 域名选择对应的地域(比如:.tw 就是台湾、.cn 就是中国 等)

  2. 使用对应语言的二级域名(比如:德语 de.xx.com、日语 jp.xx.com 等)

  3. 使用对应地域的服务器(现在很多网站使用CDN加速,如果你也用了CDN,这条就可以忽略)

  4. 内容中包含地域,以及地域的特定城市词、街道词等。

  5. 在谷歌地图中加入的本地商铺信息,同时将谷歌地图加入到你的网站中。


2.1.5 移动算法(Mobile Update)

  • 时间:2015年4月

  • 目标:针对移动端用户体验

移动升级是针对移动端用户体验的一次算法升级。你需要通过Google Search Console的数据来更改你页面上移动展示的各类问题。经常出现的有如下几类:

搜索引擎原理移动端问题 – google search console

  • 文字大小,无法阅读。解决方案:将文字的大小(font-size)控制在14像素以上(个人推荐16像素)。

  • 可点击元素之间的距离太近。解决方案:将行高控制在26像素以上,并配合边缘属性(Margin)和填充属性(Padding)进行调整。

  • 未设置视口值。解决方案:视觉大框架宽度(width)设置为100%,不要使用像素来限定宽度。

  • 内容宽度超过了屏幕显示范围。解决方案:一般导致这些问题的是图片,图片限定了宽度,导致了图片会超出选定范围。所以图片宽度(width)设置为100%即可。


2.1.6 Rank Brain

  • 时间:2015年10月

  • 目标:用户行为

Rank Brain 没有对应的中文,可以理解为算法的升级。

其实Rank Brain属于蜂鸟算法其中的一部分。把这部分脱离出来说,目的是为了阐明一个道理——用户的行为会影响你的网站排名。比如说:网站点击率(CRT,Click through Rate)、跳出率(Bounce Rate)、交互时间(Dwell Time)。

一般意义上,一个页面的点击率越高,说明这个页面的品牌效应越好,或者是用户更加青睐。跳出率低代表内容符合用户搜索意图。同时,交互时间越长,代表内容的可读性,垂直度更高。

这些统称为——用户行为。目前谷歌并没有说明这块占整体权重的多少,我们页无法衡量。但是,不断优化这些数据,其实是在提高用户体验,自然没有坏处。


2.1.7 负鼠算法(Possum update)

  • 时间:2016年12月

负鼠算法和鸽子算法很像,看上方的飞鸽算法即可。只是对地域性搜索做了一个更深入的调整。


2.1.8 Fred(Fred Update)

  • 时间:2017年3月

这次,算是一个小更新。主要打击广告严重,分销信息比较严重的网站。


2.1.9 速度更新(Page Speed Update)

  • 时间:2018年6月

建议无论是移动端还是PC端访问,最起码要达到快速(Fast),就像下方这样。

搜索引擎原理


2.1.10 Medic Update

  • 时间:2018年8月

本次谷歌没有给出准确的名称。介于医疗类Niche站点影响比较大,暂且称为 Medic Update

正如我所说,谷歌并没有命名本次算法。只是说8月做了一次 核心算法更新(Core Update)

Twitter – Google Search liaison发布的信息

本次更新影响最大是健康类,医疗类的网站。至于改进方案其实也就老一套——做好你的内容。给用户提供更多有价值的信息,而不是一味的卖产品,放广告。


2.1.11 Core Update

2019年6月2日June 2019

这次更新是Broad Core Update广义的算法更新,并不是针对某个问题,而是对谷歌整体算法的改进,目的是更好地理解搜索查询和网页内容。帮助谷歌更准确地了解用户搜索意图,将关键词查询与更相关的网页匹配起来,提高用户搜索浏览满意度。


2.1.12 BERT Update

2019年10月25日

号称在过去5年中谷歌搜索最大的算法更新,对搜索结果排名和精选推荐(Featured Snippets)都有影响。


BERT更新是为了提高算法对语言的理解能力,特别是较长的、会话性较强的关键词查询,因为BERT模型能够更好地理解上下文含义、理解单词在搜索中的细微差别,并且更好地将关键词查询与有价值的结果匹配,让用户以更自然地、与浏览器对话的方式进行搜索。这也不难理解,因为在美国市场中,语音搜索用户比例已经占到美国成年人总数的42.7%。


2.1.13 趋势

  1. 重视用户分析。尽管这并不是什么新趋势或新概念,但每年都会作为Google调整算法的重点,因为搜索者的意图和行为一直在变化。特别是在2020年之后,这将成为必然趋势。GitHub的SEO经理Jenn Mathews说:“从根本上来说,当人们想要回答问题或了解更多有关某事的信息时,Google(以及其他搜索引擎)是一个理想的选择。如果我们理解人们为什么搜索并提供他们所寻找的答案,就能在同行中脱颖而出。”

  2. 用户体验为王。Google在2021年将把用户体验作为排名因素引入,谷歌也公布了衡量用户体验的指标。

  3. 深度内容排名高。有专家通过长时间的观察发现,2000字以上的博客大大超过1000字左右的网页排名,这种偏爱深度长内容的趋势将在2021年持续下去。

    1.  内容是否提供了原创信息、报告、研究或分析?

    2. 内容是否对主题进行了大量、完整或全面的描述?

    3. 内容是否提供了大量实质深刻的分析或绝非平庸的有趣信息?

    4. 如果内容借鉴了其他资料,是否避免了简单地复制或改写这些资料,而是提供了实质性的附加价值和原创性?

    5. 标题和/或页面标题是否提供了一个具有描述性的、有用的内容摘要?

    6. 标题和/或页面标题是否避免了夸张或令人震惊的标题党特征?

    7. 这是你想收藏、与朋友分享或推荐的网页内容吗?

    8. 你是否期望这些内容会出现在,或被引用在印刷版杂志、百科全书或书籍上?

  1. 自动化工具流行。如果回顾一下2020年通过自动化工具完成的SEO任务数量(结构化数据生成,质量内容等),将会发现由AI生成内容的质量和数量已大大增加,而这也将成为在2021年延续的趋势。

  2. 视频营销更吃香。据SISTRIX12月7日发布的最新数据显示,YouTube在这次算法更新中是权重上升最多的网站,超过Facebook、LinkedIn等其他社媒平台。


参考资料

  1. https://www.ituring.com.cn/book/tupubarticle/3851

  2. https://zhuanlan.zhihu.com/p/336088669

  3. https://www.mmldigi.com/seo-google-core-update/

  4. https://www.gefenelunan.com/google-seo/1236.html





以上是关于搜索引擎原理的主要内容,如果未能解决你的问题,请参考以下文章

架构丰富的代码片段也应该用于产品列表吗?

如何在 BottomNavigationView 的片段上打开搜索界面?

26个jQuery代码片段使用技巧

「游戏引擎 浅入浅出」4.3 片段着色器

「游戏引擎 浅入浅出」4.3 片段着色器

「游戏引擎 浅入浅出」4.3 片段着色器