爬虫2
Posted rayshaw13
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了爬虫2相关的知识,希望对你有一定的参考价值。
爬取网页的通用代码框架
异常 | 说明 |
requests.ConnectionError | 网络连接错误异常,比如DNS查询失败、拒绝连接等 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout | 连接远程服务器超时异常 |
requests.Timesout | 请求URL超时,产生超时异常 |
理解requests库的异常:
r.raise_for_status() | 如果不是200,产生异常requests.HTTPError |
示例:
import requests def gethtmlText(url): try: r=requests.get(url,timeout=30) r.raise_for_status()#如果状态不是200,引发HTTPError异常 r.encoding=r.apparent_encoding return r.text except: return \'产生异常\'
结果:
以上是关于爬虫2的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段