pyhont---信息的爬取与提取---requests库
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pyhont---信息的爬取与提取---requests库相关的知识,希望对你有一定的参考价值。
python --requests能爬取网页的信息
Requests库的七个主要方法
request(method.url.**kwargs) 构造一个请求,支撑以下各方法的基础方法
get() 获取html网页的主要方法,对应于http的get
head() 获取HTML网页头信息的方法,网页中的head部分
post() 向网页提交post请求,对应于http的post
put() 向网页提交Put请求,对应于http的put
patch()向HTML网页提交局部修改请求,对应于HTTP的patch
delete() 向HTML网页提交删除请求,对应于HTTP的delete
response对象的五个常用属性:
r.status_code 200表示连接成功
r.text http响应内容的字符串形式,即url对应网页内容
r.encoding 从httpheader中猜测响应内容编码方式
r.apparent_encoding 从内容中分析出响应内容编码方式
r.content http响应内容的二进制形式
get()方法获取资源的一般流程:
r.status_code 检查连接状态
r.text r,encoding r.apparent_encoding 等解析网页内容
通用框架
import requests def getHtml(url): try: r=requests.get(url) ‘‘‘/*返回一个response对象*/ ‘‘‘ r.raise_for_status r.encoding=r.apparent_encoding return r.text; except: print("爬取失败")
以上是关于pyhont---信息的爬取与提取---requests库的主要内容,如果未能解决你的问题,请参考以下文章