认识爬虫

Posted 2021-03-20 moongo

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了认识爬虫相关的知识，希望对你有一定的参考价值。

爬虫分为两种：
1.通用爬虫。
2.聚焦爬虫。

通用爬虫：搜索引擎用的爬虫系统。
一.目标：爬取所有网站的网页下载下来，存放到本地服务器里形成备份。

二.抓取流程：
a.首选选取一部分已有的url,把这些url放到待爬取队列。
b.从队列里取出这些URL，然后解析DNS得到主机IP，然后去找个IP对应的服务器里下载html页面，保存到搜索引擎的服务器里。
之后把这个爬过的URL放入已爬过的队列。
c.分析这些网页内容，找出网页里其他的url连接，继续执行第二部，直到爬虫任务结束。

三.搜索引擎如何获取一个新网站的URL
1.主动提交
2.在其他网站里设置网站的外链
3.搜索引擎和DNS服务器合作，可以快速收录网站。

四，通用爬虫并不是万物皆可爬，需要遵守规则。
Robots协议：协议会指明通用爬虫可以爬取的网页权限。
Robots.txt 并不是所有爬虫的遵守，一般只有大型的搜索引擎爬虫才会遵守。

个人自己写的爬虫就不管了！

五：工作流程：爬取网页--存储数据--内容处理--提供检索/排名服务

六搜索引擎排名：
1.PageRank值：根据网站的流量（点击量/浏览量/人气）统计流量越高，排名越高，越值钱。
2.竞价排名：谁给钱多，谁排名高。

七缺点：
1.只能提供文本相关的内容（HTML,WORD,PDF）等等，不能提供多媒体（音乐，图片，视频）和二进制文件（程序，脚本...）
2.提供的结果千篇一律，不能针对不同背景不同领域的结果。
3.不能理解人类语义上的检索。

聚焦爬虫：程序员写的针对某种内容的爬虫。
面向主题爬虫，面向需要爬虫：会针对某种特定的内容爬取信息，尽可能和需求相关。

以上是关于认识爬虫的主要内容，如果未能解决你的问题，请参考以下文章

爬虫技术分享系列一：认识爬虫

认识爬虫

Python爬虫实践 —— 1.对反爬机制的认识

0基础带你认识爬虫

你真的了解爬虫吗？看完你会对网络爬虫有更深更全面的认识