初学者必看,Google搜索引擎的基本原理

Posted 青禾一隅

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了初学者必看,Google搜索引擎的基本原理相关的知识,希望对你有一定的参考价值。


全文字数:37656字

阅读时间:7分钟

初学者必看,Google搜索引擎的基本原理


从用户的角度来看,搜索引擎是一个现代的奇迹。您在搜索框中键入查询,在大多数情况下,来自Web的结果会进行排序并按毫秒排列。


像谷歌这样的热门搜索引擎甚至开始直接在搜索结果中回答一些问题,这样既节省了时间又节省了点击次数。


初学者必看,Google搜索引擎的基本原理


在此指南中,您将了解到:


什么是搜索引擎;

搜索引擎的工作原理;

搜索引擎算法的作用;

谷歌的工作原理(非技术解释);

谷歌搜索算法的工作原理;


什么是搜索引擎?


搜索引擎由两个主要内容组成:一个信息数据库,以及计算给定查询返回和排名结果的算法。


就谷歌这样的网络搜索引擎而言,该数据库由数万亿个网页组成,算法会查看数百个因素,以提供最相关的结果。


搜索引擎是如何工作的?


搜索引擎通过获取已知网址列表来工作,然后转到调度器调度器决定何时抓取每个URL。然后,爬行页面转到提取重要信息并索引重要信息的解析器解析链接转到调度器,该调度器优先处理其爬行重新爬行


当您搜索某些内容时,搜索引擎会返回匹配的页面,算法会根据相关性对它们进行排名。


下面是谷歌显示此过程的图表:


初学者必看,Google搜索引擎的基本原理


我们将很快涵盖排名算法。首先,让我们深入探讨用于构建和维护Web索引的机制,以确保我们了解这些机制的工作原理。这些是调度、爬行、分析索引。


注:此过程仅适用于谷歌、必应和DuckDuckGo等网络搜索引擎。还有其他类型的搜索引擎,如亚马逊,YouTube,只显示他们的网站的结果。


调度(Scheduling)

调度器评估新网址和已知网址的相对重要性。然后,它决定何时抓取新的网址,以及重新抓取已知网址的频率。


爬行(Crawling)

爬行器是一个下载网页的计算机程序。搜索引擎通过定期重新爬行已知页面来发现新内容,这些页面通常会随着时间的推移添加新链接。


例如,每次我们发布一篇新的博客文章时,它都会被推到博客主页的顶部,那里有一个链接。


初学者必看,Google搜索引擎的基本原理


当像谷歌这样的搜索引擎重新抓取该页面时,它会使用最近添加的链接下载页面的内容。


然后,爬行器将下载的网页传递给解析器。


解析(Parsing)

解析器从页面中提取链接以及其他关键信息。然后,它将提取的URL发送到调度器,并提取数据进行索引。


索引(Indexing)

索引是将来自爬行页面的解析信息添加到称为搜索索引的数据库的地方。


将此视为一个关于数万亿个网页的信息数字库。


什么是搜索引擎算法?


发现和索引内容只是谜题的第一部分。搜索引擎还需要一种方法来对用户执行搜索时的匹配结果进行排名。这是搜索引擎算法的工作。


每个搜索引擎都有用于对网页进行排名的独特算法。但是,由于谷歌是迄今为止使用最广泛的搜索引擎,这就是我们在本指南的剩余部分将重点关注的搜索引擎。


谷歌是如何运作的?

谷歌的工作方式与上述方式大致相同。它爬网并索引它找到的内容。然后,当您搜索某样东西时,它会找到匹配的结果,并在几分之一秒内按相关性对它们进行算法排名。


初学者必看,Google搜索引擎的基本原理


谷歌作为一个搜索引擎工作得很好,因为有三件事:


首先,他们爬行和重新爬网的规模比任何人都大。这使得他们能够建立和维持地球上最大和最新鲜的指数。


其次,他们在语言模型上投入了大量资金,使他们能够理解即使是最晦涩或不正确的查询背后的真正含义。


例如,他们明白,你搜索“nowyork restaont”是“NewYork Restaurant”


初学者必看,Google搜索引擎的基本原理


除此之外,他们还理解同义词。


这就是为什么当你搜索"howto make money online"时,你会在结果中看到同义词,如"earn""cash"


初学者必看,Google搜索引擎的基本原理

第三,也是最关键的,他们的排名算法可以说是返回所有搜索引擎最相关的结果。


谷歌搜索算法的工作原理


谷歌查看了数百个因素来查找和排名相关内容。没有人知道所有这些是什么,但我们知道一些关键因素。


让我们讨论一下其中的几个。


主题相关性

Google指出,当网页包含与搜索查询相同的关键字时,尤其是在标题等显要位置,那么这就是相关性的标志。


但这个想法并非万无一失,这就是为什么谷歌也在页面上寻找其他相关词语的存在。


以下是谷歌的解释:

试想一下:当你搜索"dog"时,你可能不想要上面有dog"字数百次的页面。有鉴于此,算法会评估页面是否包含关键字"dog"以外的其他相关内容,例如狗的照片、视频,甚至品种列表。


再举一个例子,假设您有一篇关于“how to get a driver’slicense.”的文章。它可能应该有关于汽车,摩托车和公共汽车的许可,并提到单词和短语,如road,driving, license, exam, safety, full-privilegelicense.


诸如此类的相关词语和短语的存在可能有助于增强Google对页面内容的信心。


举另一个例子,想象一下,你想创建一个“the best actors”页面。


看看第一页的任何结果,你会发现一些有趣的东西:他们几乎都提到像RobertDe Niro, Jack Nicholson, MerylStreep.这些人


在您的页面上提及这些人或实体可能有助于增强Google的信任,更加可能认为这个页面是"最佳演员"等查询的相关结果。


搜索意图

谷歌知道人们进行搜索是有原因的,理解这个原因有助于他们返回更好的搜索结果,并创造更满意的用户。


换句话说,他们努力对用户期望看到的内容进行排名。


这就是为什么所有"iPhone X unboxing"的首条结果都是视频。


初学者必看,Google搜索引擎的基本原理


"iPhone X box"的结果是图像和产品列表:


初学者必看,Google搜索引擎的基本原理


谷歌明白,尽管使用了类似的语言,但这些搜索背后的意图完全不同。他们努力提供与用户希望看到的内容风格(content style)、内容类型(content type,)、内容格式(content format)和内容立场(content angle)相匹配的结果。


这些称为搜索意图的4C


内容样式

内容样式可分为三种类型:视频、图像和基于文本的内容。


对于大多数查询,结果中占主导地位和最理想的内容风格是相当明确的。对于其他人,如"pink roses",谷歌明白,意图是混合的,并显示多种风格的内容。


初学者必看,Google搜索引擎的基本原理


内容类型

内容类型通常分为四种类型:blog posts, product, category, landing pages.


例如,“how to start a blog”的所有结果都是博客文章。


初学者必看,Google搜索引擎的基本原理


内容格式

内容格式主要适用于博客文章、视频和登陆页面。对于博客文章,常见的风格是"how to's",列出帖子,教程,意见文章和新闻文章。


"blogging tips"的所有结果都是列表帖子。


初学者必看,Google搜索引擎的基本原理


对于着陆页,该格式可能是交互式计算器或工具。


内容立场

内容立场是指内容的主要卖点。对于大多数查询,搜索结果中有一个占主导地位的立场。


例如,"blogging tips"的大多数顶级结果都集中在初学者上。


初学者必看,Google搜索引擎的基本原理


谷歌没有advanced tips的内容,因为这不是搜索者希望看到的。


新鲜(时效)

谷歌知道,对于某些搜索来说,结果的新鲜度比其他搜索更重要。


例如,像"what's new on netflix"这样的查询需要新的结果,因为搜索者想知道最近新发行到视频平台的电影和电视节目。因此,Google优先考虑最近发布或更新的搜索结果。


初学者必看,Google搜索引擎的基本原理


对于像"best headphones"这样的疑问,新鲜度仍然很重要——但没那么重要。换句话说,2015年的列表不太可能有太大用处,因为耳机技术发展很快。但不至于快到上个月发表的帖子内容就没有相关性了。


谷歌知道这一点,并显示过去几个月更新或发布的结果。


初学者必看,Google搜索引擎的基本原理


也有疑问,结果的新鲜度大多无关紧要,如"如何打领带"。几十年来,这个过程没有任何变化,所以搜索结果是来自昨天还是1998年并不重要。谷歌知道这一点,并毫不犹豫地将2013年的结果排在#2的位置。


初学者必看,Google搜索引擎的基本原理


内容质量

谷歌希望将高质量的内容排在低质量内容的前面。问题是,内容质量在客观上很难确定,因此谷歌在尝试这样做时,会关注一种叫做E-A-T的东西。


什么是E-A-T

  • Expertise专业性

  • Authoritativeness权威性

  • Trust信任度

简而言之,以下是E-A-T的工作原理:


比方说,你搜索“howto write a song”如果有选择的话,你肯定会选更专业的人如:Beyonce。为什么?因为Beyonce是一个歌曲创作专家权威人物,你相信他会给你有用的建议。


现在,虽然E-A-T对于所有查询都很重要,谷歌还有一个搜索算法,谷歌这称之为“YMYL”或者“Your Money or Your Life”


谷歌表示,YMYL查询可能会影响一个人未来的幸福感、健康、财务稳定或安全。


例如,采取查询,如“safe dosage of ibuprofen?”


这种涉及生命安全的问题,谷歌是非常谨慎的。在这种情况下,得到的搜索结果无法证明还可能会危及生命。如果一个页面不准确,那么它不应该出现在搜索结果中——不管它恰好有多"相关"


话虽如此,内容本身并不是影响E-A-T的唯一因素。指向页面的外链等内容也很重要。


将外链视为来自其他网站的投票。当某人链接到页面时,他们会为该内容进行担保,并将其推荐给读者。


这大概就是为什么大多数大规模研究表明外链和排名之间有明显的相关性


初学者必看,Google搜索引擎的基本原理


这就是说,重要的是要注意,并非所有的外链都是一样的。链接网站和网页的相关性和权威性也很重要。


例如,比如说你有一篇关于创业的文章。谷歌将更重视你的链接出现在小企业管理局的指南上,而不是来自于你昨天才新建的网站。


可用性

谷歌会对让用户满意的网页进行排名,这远远超出了返回相关结果的范围。内容还需要易于访问且易于使用。


有几个已确认的排名因素有助于这一点。


页面速度

没有人喜欢等待页面加载,谷歌知道这一点。这就是为什么他们把页面速度作为2010年桌面搜索的排名因素,随后在2018年将移动搜索作为排名因素。


移动友好型

65%Google搜索发生在移动设备上,这解释了为什么移动友好性是截至2015年移动搜索的排名因素。


而且,自20197月以来,移动友好也是桌面搜索的排名因素,这要归功于谷歌转向"移动第一索引"。这意味着Google"主要使用内容的移动版本对所有设备进行索引和排名"


个性化

Google指出,"您的位置、过去的搜索历史记录和搜索设置等信息都有助于[我们]根据您在那一刻最有用和最相关的内容调整您的结果。


例如,搜索"best Mexican restaurant"会使用您的位置返回本地结果。


初学者必看,Google搜索引擎的基本原理


这是因为谷歌知道你不太可能为了吃饭去订一张机票。


对于像"buy a house"这样的查询来说,情况也差不多。谷歌返回页面与本地列表。


初学者必看,Google搜索引擎的基本原理


语言是另一个重要因素。毕竟,向西班牙用户显示英语结果是没有意义的。这一点对做小语种的网站比较好,因为竞争会少很多,你的网站排到首页的难度会小很多。


初学者必看,Google搜索引擎的基本原理


初学者必看,Google搜索引擎的基本原理


初学者必看,Google搜索引擎的基本原理

点分享

初学者必看,Google搜索引擎的基本原理

点收藏

点点赞

点在看

以上是关于初学者必看,Google搜索引擎的基本原理的主要内容,如果未能解决你的问题,请参考以下文章

百度谷歌搜索引擎研究,如何做SEO优化?网站优化实操(程序员必看)

jsp:useBean 属性官方文档

Java初学者必看,idea小技巧汇总

Kubernetes零基础快速入门!初学者必看!

java基础语法学习day01---初学者必看详解

java基础语法学习day01---初学者必看详解