python网络爬虫三

Posted Learn by doing!

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python网络爬虫三相关的知识,希望对你有一定的参考价值。

request库七个方法详解

1. request方法


所有方法的的基础方法,三个参数:method,url,**kwargs

技术分享图片

1.1 method:请求方式

  • method参数共有七个可选的值,分别对应HTTP协议的七种操作:

技术分享图片

  • 对应的方法可以用request方法直接实现,也可以用封装好的request.get()等方法实现。

1.2 访问控制参数(可选)

1.params:字典或者字节序列,作为参数增加到URL中。不仅访问URL,还可以向服务器携带参数。

技术分享图片

2.data:字典、字节序列或文件对象,向服务器提交数据时使用。data的内容不放在URL链接里,而放在URL对应的位置那里

技术分享图片

3.json:JSON格式的数据,和data相似,作为内容部分向服务器提交。

技术分享图片

4.headers:字典,HTTP定制头,用这个字段定制访问URL的HTTP的协议头。

技术分享图片

  • 定义一个字典,修改user-agent字段,这样就可以模拟使用Chrome-10浏览器来访问URL

5.cookies:字典或者CookieJar,从HTTP协议中解析出cookies信息。
6.auth:元组,HTTP认证功能。
7.files:字典,用于传输文件,存放到相应的URL上。

技术分享图片

8.timeout:设定超时时间,秒为单位。

技术分享图片

  • 设定一个超时时间,如果在这个时间内没有返回结果,那么就会抛出timeout异常。

9.proxies:字典类型,设定代理服务器,嘿嘿嘿~

技术分享图片

  • 分别为HTTP和HTTPS设置代理服务器,这样我们访问网页使用的IP地址就是代理服务器的IP地址。隐藏IP,防止逆追踪。

10.allow——redirects:布尔型,默认为1,表示是否允许重定向。
11.stream:布尔型,默认为1,表示是否允许对获取的内容进行立即下载。
12.verify:布尔型,默认为1,认证SSL证书开关。
13.cert:本地SSL证书路径。

2. request.get()方法


技术分享图片

  • params字段就是刚刚介绍的params字段,其余12个可选字段也和前面一样。
  • 因为向服务器传输资源是严格受限的,所以get方法是最常用的方法。

3. request.head()方法


技术分享图片

4. request.post()方法


技术分享图片

5. request.put()方法


技术分享图片

6. request.patch()方法


技术分享图片

7. request.delete()方法


技术分享图片

因为有些方法可能会常用可选字段中的某些参数,所以把它们显示的定义出来方便使用。
其实我们只使用request一个方法,修改它的method值并给定对应的参数,和使用其他六个方法的效果是一样的。







以上是关于python网络爬虫三的主要内容,如果未能解决你的问题,请参考以下文章

验证码逆向专栏极验三代四代点选类验证码逆向分析

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

日常Geetest滑动验证码(三代canvas版)处理小结(以B站登录验证为例)

Python3网络爬虫实战-41图形验证码的识别

Python3网络爬虫实战-42图形验证码的识别

Python3网络爬虫实战-44点触点选验证码的识别