产品经理学Python-爬虫攻坚no.2-简单爬虫架构
Posted bogepm
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了产品经理学Python-爬虫攻坚no.2-简单爬虫架构相关的知识,希望对你有一定的参考价值。
时间不等人,我学爬虫的近期目的是爬取一个网站的资源,主要是在大量的伪html中访问url不断请求数据,关键问题在正则表达 和访问速度上。
1/简单的爬虫架构示例
2/ 运行流程
3/URL管理器
网页下载器-urllib2
网页解析器-正则表达式、html.paser、BeautifulSoup、Ixml
BeautifulSoup
结构化解析-DOM解析
以上是关于产品经理学Python-爬虫攻坚no.2-简单爬虫架构的主要内容,如果未能解决你的问题,请参考以下文章