网络爬虫技术浅析
Posted 计算机与网络安全
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫技术浅析相关的知识,希望对你有一定的参考价值。
一次性付费进群,长期免费索取教程,没有付费教程。
ID:Computer-network
,听起来似乎很智能,实际上也没那么复杂。可以简单地理解为使用某种语言(例如语言)按照一定的顺序、规则主动抓取特定信息的程序或者脚本。
大多都不会是只爬行1页。如果只有1页的数据,那也无须什么了。直接用sed、awk、就好,效率更高。既然是多页那就涉及一个顺序问题,即先爬哪页、后爬哪页。
以一个最简单的为例。从程序出发,开始爬向多个页面,然后从页面中获取数据。这种形式有点类似于树状结构,如图1所示。
图1 爬虫示意图
爬行顺序的选择有点类似于二叉树,一个是深度优先,一个是广度优先,一般大多会采用深度优先的。这种是从出发,先请求Html1的数据,再从得到的数据中过滤得到Data1。然后请求Html2的数据,再过滤得到Data2,以此类推。个人常用的bs4基本都是采用这种方法。好处在于简单直观,非常符合人类正常的思维。也有采用广度优先的,那就是先将所有的网页数据收集完毕,然后一一过滤获取有效数据,只是采用这种方法的比较少见,Pyspider就是这种类型的。
这只是简单爬取单个网站的策略。如果是去爬大型网站或者多个网站,不会这么简单机械,可能需要根据网站的大小、网页的重要性以及权重等分成不同的等级来爬。比较知名的爬行策略有pagerank、opic等。
在网络上,网站是如何识别用户身份的呢?答案是Cookie。
ID:Computer-network
以上是关于网络爬虫技术浅析的主要内容,如果未能解决你的问题,请参考以下文章