Python-爬虫-requests

Posted 2021-02-05 天宝老爹

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python-爬虫-requests相关的知识，希望对你有一定的参考价值。

简介

#介绍：使用requests可以模拟浏览器的请求，比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）

#注意：requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起新的request请求

#安装：pip3 install requests

#各种请求方式：常用的就是requests.get()和requests.post()
>>> import requests
>>> r = requests.get(‘https://api.github.com/events‘)
>>> r = requests.post(‘http://httpbin.org/post‘, data = {‘key‘:‘value‘})
>>> r = requests.put(‘http://httpbin.org/put‘, data = {‘key‘:‘value‘})
>>> r = requests.delete(‘http://httpbin.org/delete‘)
>>> r = requests.head(‘http://httpbin.org/get‘)
>>> r = requests.options(‘http://httpbin.org/get‘)

1、GET请求

# 1、无参数实例
 
import requests
 
ret = requests.get(‘https://github.com/timeline.json‘)
 
print ret.url
print ret.text
 
# 2、有参数实例
 
import requests
 
payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘}
ret = requests.get("http://httpbin.org/get", params=payload)
 
print ret.url
print ret.text

向 https://github.com/timeline.json 发送一个GET请求，将请求和响应相关均封装在 ret 对象中。

2、POST请求

# 1、基本POST实例
 
import requests
 
payload = {‘key1‘: ‘value1‘, ‘key2‘: ‘value2‘}
ret = requests.post("http://httpbin.org/post", data=payload)
 
print ret.text
 
 
# 2、发送请求头和数据实例
 
import requests
import json
 
url = ‘https://api.github.com/some/endpoint‘
payload = {‘some‘: ‘data‘}
headers = {‘content-type‘: ‘application/json‘}
 
ret = requests.post(url, data=json.dumps(payload), headers=headers)
 
print ret.text
print ret.cookies

向https://api.github.com/some/endpoint发送一个POST请求，将请求和相应相关的内容封装在 ret 对象中。

3、其他请求

requests.get(url, params=None, **kwargs)
requests.post(url, data=None, json=None, **kwargs)
requests.put(url, data=None, **kwargs)
requests.head(url, **kwargs)
requests.delete(url, **kwargs)
requests.patch(url, data=None, **kwargs)
requests.options(url, **kwargs)
 
# 以上方法均是在此方法的基础上构建
requests.request(method, url, **kwargs)

requests模块已经将常用的Http请求方法为用户封装完成，用户直接调用其提供的相应方法即可

Practice

import requests
import re
‘‘‘
请求方式:get、post、put…
参数：params、headers、proxies、cookies、data
‘‘‘
rsp=requests.get("https://www.hellobi.com/")
ck=requests.utils.dict_from_cookiejar(rsp.cookies)
title=re.compile("<title>(.*?)</title>",re.S).findall(rsp.text)
hd={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0"}
px={"http":"http://127.0.0.1:8888",
    "https":"http://127.0.0.1:8888",}
rsp=requests.get("https://www.hellobi.com/",proxies=px,headers=hd,cookies=ck)
key={"wd":"韦玮",
     }
rsp=requests.get("http://www.baidu.com/s",headers=hd,cookies=ck,params=key)
title=re.compile("<title>(.*?)</title>",re.S).findall(rsp.text)

postdata={"name":"测试账号",
          "pass":"测试密码"}
rsp=requests.post("http://www.iqianyue.com/mypost/",data=postdata)

以上是关于Python-爬虫-requests的主要内容，如果未能解决你的问题，请参考以下文章