python网络爬虫三
Posted Learn by doing!
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络爬虫三相关的知识,希望对你有一定的参考价值。
request库七个方法详解
1. request方法
所有方法的的基础方法,三个参数:method
,url
,**kwargs
。
1.1 method:请求方式
- method参数共有七个可选的值,分别对应HTTP协议的七种操作:
- 对应的方法可以用request方法直接实现,也可以用封装好的request.get()等方法实现。
1.2 访问控制参数(可选)
1.params:字典或者字节序列,作为参数增加到URL中。不仅访问URL,还可以向服务器携带参数。
2.data:字典、字节序列或文件对象,向服务器提交数据时使用。data的内容不放在URL链接里,而放在URL对应的位置那里
3.json:JSON格式的数据,和data相似,作为内容部分向服务器提交。
4.headers:字典,HTTP定制头,用这个字段定制访问URL的HTTP的协议头。
- 定义一个字典,修改user-agent字段,这样就可以模拟使用Chrome-10浏览器来访问URL。
5.cookies:字典或者CookieJar,从HTTP协议中解析出cookies信息。
6.auth:元组,HTTP认证功能。
7.files:字典,用于传输文件,存放到相应的URL上。
8.timeout:设定超时时间,秒为单位。
- 设定一个超时时间,如果在这个时间内没有返回结果,那么就会抛出timeout异常。
9.proxies:字典类型,设定代理服务器,嘿嘿嘿~
- 分别为HTTP和HTTPS设置代理服务器,这样我们访问网页使用的IP地址就是代理服务器的IP地址。隐藏IP,防止逆追踪。
10.allow——redirects:布尔型,默认为1,表示是否允许重定向。
11.stream:布尔型,默认为1,表示是否允许对获取的内容进行立即下载。
12.verify:布尔型,默认为1,认证SSL证书开关。
13.cert:本地SSL证书路径。
2. request.get()方法
- params字段就是刚刚介绍的params字段,其余12个可选字段也和前面一样。
- 因为向服务器传输资源是严格受限的,所以get方法是最常用的方法。
3. request.head()方法
4. request.post()方法
5. request.put()方法
6. request.patch()方法
7. request.delete()方法
因为有些方法可能会常用可选字段中的某些参数,所以把它们显示的定义出来方便使用。
其实我们只使用request一个方法,修改它的method值并给定对应的参数,和使用其他六个方法的效果是一样的。
以上是关于python网络爬虫三的主要内容,如果未能解决你的问题,请参考以下文章
爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别