python分布式爬虫搭建开发环境

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python分布式爬虫搭建开发环境相关的知识,希望对你有一定的参考价值。

scrapy 优势:

  1. resquests和Beautifulsoup都是库,scrapy是框架
  2. scrapy框架可以加入前两项
  3. scrapy基于twisted,性能是最大的优势
  4. scrapy方便扩展,提供很多内置功能
  5. 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍

常见类型网页:静态网页 动态网页 、 webserbice(restapi)


 

正则表达式: 

  1.   以xx开头   $  以xx结尾   *  0次以及以上1次及以上  + 一次及以上 {} n次 {m,}  m次以上 {m,n}  n次m  |  或
  2. [] 或   [^]  不是这个开头   [a-z]  a-z任意选一个  .
  3. \s  空格字符 \S  飞空格字符 \w 字母  \W  非字母
  4. [\u4e00-\u9FA5] 中文  ()  取括号也表示优先级和元祖  \d  数字 

以上是关于python分布式爬虫搭建开发环境的主要内容,如果未能解决你的问题,请参考以下文章

聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎

聚焦Python分布式爬虫必学框架Scrapy 打造搜索引擎

python分布式爬虫打造搜索引擎--------scrapy实现

python分布式爬虫打造搜索引擎--------scrapy实现

使用scrapy-redis 搭建分布式爬虫环境

使用scrapy-redis搭建分布式爬虫环境