产品经理学Python-爬虫攻坚no.2-简单爬虫架构

Posted bogepm

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了产品经理学Python-爬虫攻坚no.2-简单爬虫架构相关的知识,希望对你有一定的参考价值。

时间不等人,我学爬虫的近期目的是爬取一个网站的资源,主要是在大量的伪html中访问url不断请求数据,关键问题在正则表达 和访问速度上。

1/简单的爬虫架构示例

技术图片

2/  运行流程

技术图片

3/URL管理器

技术图片

技术图片

 

 网页下载器-urllib2

 网页解析器-正则表达式、html.paser、BeautifulSoup、Ixml

BeautifulSoup

 

结构化解析-DOM解析

技术图片

 

以上是关于产品经理学Python-爬虫攻坚no.2-简单爬虫架构的主要内容,如果未能解决你的问题,请参考以下文章

为什么每一个爬虫工程师都应该学习 Kafka

Python学习之简单网页爬虫

小白学 Python 爬虫:前置准备Linux基础入门

Mac OS安装Scrapy

Python爬虫:现学现用Xpath爬取豆瓣音乐

爬虫好学么?