网络爬虫结构
Posted 成长日记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了网络爬虫结构相关的知识,希望对你有一定的参考价值。
网络爬虫的基本工作流
1)首先选取url
2)将urll放到待抓取的url队列中
3)从待抓取url队列中读取url -----》解析dns----》获取主机IP--》下载对应的网页---》存储到已经下载的网页库中----》将url放到已经抓取的url队列中
4)分析已经抓取的url队列中的url---》重已经下载的网页数据中提url 比重————》未抓取的放到待抓取队列中
以上是关于网络爬虫结构的主要内容,如果未能解决你的问题,请参考以下文章