网络爬虫:你懂搜索引擎是怎么运作的吗?

Posted 雷课

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫:你懂搜索引擎是怎么运作的吗?相关的知识,希望对你有一定的参考价值。


   搜索引擎


搜索和标识数据库中与用户指定的关键字或字符相对应的项的程序,用于查找万维网上的特定站点。


例如:谷歌搜索引擎,360,百度等。

网络爬虫:你懂搜索引擎是怎么运作的吗?

   搜索引擎索引


搜索引擎索引是将关键字与网站相关联的数据库,因此搜索引擎可以显示与用户的搜索查询相匹配的网站。


例如,如果用户搜索猎豹的运行速度,那么软件蜘蛛将在搜索引擎索引中搜索这些术语。


   网络爬虫


您首先需要了解的是Web Crawler或Spider是什么以及它是如何工作的。搜索引擎蜘蛛(也被称为爬虫、机器人、搜索机器人或简单的机器人)是大多数搜索引擎用来查找互联网上新事物的程序。谷歌的网络爬虫被称为Googlebot。该程序从一个网站开始,并跟踪每个页面上的每一个超链接。


所以可以说,网络上的所有东西最终都会被发现和爬行,就像所谓的“蜘蛛”从一个网站爬到另一个网站。当网络爬虫访问您的一个页面时,它会将站点的内容加载到数据库中。一旦获取了一个页面,页面的文本就会被加载到搜索引擎的索引中,这是一个海量的单词数据库,它们出现在不同的网页上。


   Robots.txt文件


网络爬虫在少数几个未经批准的网站上爬行。因此,每个网站都包含一个robots.txt文件,其中包含蜘蛛(网络爬虫)的指令,在网站的哪些部分要索引,哪些部分要忽略。


PageRank通过计算链接到页面的数量和质量来确定网页的重要程度。当一个网络爬虫通过每个网站,它跟踪网站中的所有链接,并检查有多少链接连接到每个网站。然后利用页面排名算法对每个网页分配百分比,以代表网页的重要性。例如,如果有三个名为A、B和C的网页,那么假设连接到B的链接数来自5个百分比较低的网页,而连接到C的链接的链接来自A,其百分比较高,因为到C的链接来自一个重要的页面,因此C的值高于B。

网络爬虫:你懂搜索引擎是怎么运作的吗?

URL图中的PageRank是一种概率分布,用来表示随机点击链接的人到达任何特定页面的可能性。


因此,在网络爬行过程中,基本上有三个步骤。


第一步:搜索机器人从爬行站点的页面开始;

第二步:继续索引网站的单词和内容;


   robots.txt”的重要性


当蜘蛛访问你的网站时,它应该做的第一件事就是查找一个名为“robots.txt”的文件。此文件包含关于网站哪些部分要索引和哪些部分要忽略的说明。控制蜘蛛在站点上看到什么的唯一方法是使用robots.txt文件。所有的蜘蛛都应该遵循一些规则,而主要的搜索引擎在大多数情况下都会遵循这些规则。幸运的是,谷歌(Google)和必应(Bing)等主要搜索引擎终于在标准方面展开了合作。


搜索时,蜘蛛搜索索引以查找包含这些搜索词的每一页。在这种情况下,它找到了数百或数千页,Google通过提出200多个这样的问题来决定哪些文档是真正想要的:


  • 这个页面包含这个关键字多少次?


  • 单词是否出现在标题中,URL中,直接相邻?


  • 页面中是否包含这些单词的同义词?


  • 这个网页是一个高质量的网站还是低质量的?


然后使用PageRank算法获取数百个网页,并对这些网页的重要性进行排序,该算法可以查看有多少外部链接指向它,以及这些链接有多重要?最后,它将所有这些因素结合在一起,生成每个页面的总体得分,并在提交搜索后大约半秒钟内将搜索结果发回。


每个页面包括标题、URL、文本片段,以确定我们要寻找的特定页面。如果不相关,它也会在页面底部显示相关搜索。

转载|腾讯内容平台





END

网络爬虫:你懂搜索引擎是怎么运作的吗?



往期精选





关注雷课        

学习干货   


以上是关于网络爬虫:你懂搜索引擎是怎么运作的吗?的主要内容,如果未能解决你的问题,请参考以下文章

网络爬虫是什么?怎么学python爬虫

什么是网络爬虫技术?

网络爬虫以及反爬虫技术介绍

爬虫技术是做啥的

你懂Scrapy吗?Scrapy大型爬虫框架讲解

Python为啥会被叫爬虫?