python爬虫的进阶用法

Posted 你是我的神奇

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python爬虫的进阶用法相关的知识,希望对你有一定的参考价值。

应用场景:

01:

去爬虫微信公众号文章,已知requests的执行方式实际就是执行里面request方法,
我们进行重写request方法的init,加入我们需要的字段:

如  callback --获取response执行回调函数     need_proxy --是否需要代理

   fail_time --执行get获取url的失败次数   timeout = 10 

from requests import Request
TIMEOUT = 10
class WeixinRequest(Request):
    def __init__(self,url,callback,method=‘GET‘,headers=None,need_proxy=False,fail_time=0,timeout=TIMEOUT):
        Request.__init__(self,method,url,headers)
        self.callback =callback
        self.need_proxy = need_proxy
        self.fail_time = fail_time
        self.timeout = timeout

 

以上是关于python爬虫的进阶用法的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫进阶五之多线程的用法

scrapy按顺序启动多个爬虫代码片段(python3)

scrapy主动退出爬虫的代码片段(python3)

Python爬虫从入门到进阶之Python概述

Python爬虫进阶——urllib模块使用案例淘宝

Python进阶篇:Python简单爬虫