python分布式爬虫搭建开发环境
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python分布式爬虫搭建开发环境相关的知识,希望对你有一定的参考价值。
scrapy 优势:
- resquests和Beautifulsoup都是库,scrapy是框架
- scrapy框架可以加入前两项
- scrapy基于twisted,性能是最大的优势
- scrapy方便扩展,提供很多内置功能
- 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍
常见类型网页:静态网页 动态网页 、 webserbice(restapi)
正则表达式:
- ^ 以xx开头 $ 以xx结尾 * 0次以及以上 ? 1次及以上 + 一次及以上 {} n次 {m,} m次以上 {m,n} n次m | 或
- [] 或 [^] 不是这个开头 [a-z] a-z任意选一个 .
- \s 空格字符 \S 飞空格字符 \w 字母 \W 非字母
- [\u4e00-\u9FA5] 中文 () 取括号也表示优先级和元祖 \d 数字
以上是关于python分布式爬虫搭建开发环境的主要内容,如果未能解决你的问题,请参考以下文章
聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎
聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎
python分布式爬虫打造搜索引擎--------scrapy实现