认识爬虫
Posted moongo
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了认识爬虫相关的知识,希望对你有一定的参考价值。
爬虫分为两种:
1.通用爬虫。
2.聚焦爬虫。
通用爬虫:搜索引擎用的爬虫系统。
一.目标:爬取所有网站的网页下载下来,存放到本地服务器里形成备份。
二.抓取流程:
a.首选选取一部分已有的url,把这些url放到待爬取队列。
b.从队列里取出这些URL,然后解析DNS得到主机IP,然后去找个IP对应的服务器里下载html页面,保存到搜索引擎的服务器里。
之后把这个爬过的URL放入已爬过的队列。
c.分析这些网页内容,找出网页里其他的url连接,继续执行第二部,直到爬虫任务结束。
三.搜索引擎如何获取一个新网站的URL
1.主动提交
2.在其他网站里设置网站的外链
3.搜索引擎和DNS服务器合作,可以快速收录网站。
四,通用爬虫并不是万物皆可爬,需要遵守规则。
Robots协议:协议会指明通用爬虫可以爬取的网页权限。
Robots.txt 并不是所有爬虫的遵守,一般只有大型的搜索引擎爬虫才会遵守。
个人自己写的爬虫就不管了!
五:工作流程:爬取网页--存储数据--内容处理--提供检索/排名服务
六搜索引擎排名:
1.PageRank值:根据网站的流量(点击量/浏览量/人气)统计流量越高,排名越高,越值钱。
2.竞价排名:谁给钱多,谁排名高。
七缺点:
1.只能提供文本相关的内容(HTML,WORD,PDF)等等,不能提供多媒体(音乐,图片,视频)和二进制文件(程序,脚本...)
2.提供的结果千篇一律,不能针对不同背景不同领域的结果。
3.不能理解人类语义上的检索。
聚焦爬虫:程序员写的针对某种内容的爬虫。
面向主题爬虫,面向需要爬虫:会针对某种特定的内容爬取信息,尽可能和需求相关。
以上是关于认识爬虫的主要内容,如果未能解决你的问题,请参考以下文章