Python爬虫:HTTP协议Requests库

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫:HTTP协议Requests库相关的知识,希望对你有一定的参考价值。

HTTP协议:

HTTP(Hypertext Transfer Protocol):即超文本传输协议。URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。

HTTP协议对资源的操作:

技术分享

Requests库提供了HTTP所有的基本请求方式。官方介绍:http://www.python-requests.org/en/master

Requests库的6个主要方法:

技术分享

Requests库的异常:

技术分享

Requests库的两个重要对象:Request(请求)、Response(相应)。Request对象支持多种请求方法;Response对象包含服务器返回的所有信息,也包含请求的Request信息。

Response对象的属性:

技术分享

其中,r.encoding指:如果header中不存在charset,则认为编码为ISO‐8859‐1。

r.raise_for_status()可以直接知道r.status_code是否等于200。

HTTP协议与Requests库对比:

技术分享

爬取网页的通用代码框架:

try:     r = requests.get(url,timeout = 30)     r.raise_for_status()     # 如果状态不是200,引发HTTPError异常     r.encoding = r.apparent_encoding     return r.text except:     return ‘产生异常‘

例如,获取PMCAFF首页的信息:

 
‘     print(getHtmlText(url))

巨弘娱乐 juhongyulept.com
新贝娱乐 xinbeiyuLe.cn
吉美娱乐 jimeiyulept.com
无极娱乐 wujiyule88.cn
七彩娱乐 qicaiyulept.cn





以上是关于Python爬虫:HTTP协议Requests库的主要内容,如果未能解决你的问题,请参考以下文章

Python爬虫之Requests库入门

爬虫学习 06.Python网络爬虫之requests模块

python爬虫入门

爬虫之requests模块

爬虫1 爬虫介绍, requests模块, 代理(正向代理,反向代理), 爬梨视频, 自动登录网站, HTTP协议复习

python爬虫之requests库