爬虫2

Posted rayshaw13

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫2相关的知识,希望对你有一定的参考价值。

爬取网页的通用代码框架

异常 说明
requests.ConnectionError 网络连接错误异常,比如DNS查询失败、拒绝连接等
requests.HTTPError HTTP错误异常
requests.URLRequired URL缺失异常
requests.TooManyRedirects 超过最大重定向次数,产生重定向异常
requests.ConnectTimeout 连接远程服务器超时异常
requests.Timesout 请求URL超时,产生超时异常

 

 

 

 

 

 

 

理解requests库的异常:

r.raise_for_status() 如果不是200,产生异常requests.HTTPError

 

示例:

import requests
def gethtmlText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()#如果状态不是200,引发HTTPError异常
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return \'产生异常\'

结果:

 

 

以上是关于爬虫2的主要内容,如果未能解决你的问题,请参考以下文章

NIH周三讲座视频爬虫

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

python爬虫学习笔记-M3U8流视频数据爬虫

VSCode自定义代码片段2——.vue文件的模板

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

Python 利用爬虫爬取网页内容 (div节点的疑惑)