Python 爬虫二

Posted Dandy Zhang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python 爬虫二相关的知识,希望对你有一定的参考价值。

requests模块

 

Requests模块

get方法请求

整体演示一下:

import requests

response  = requests.get("https://www.baidu.com")
print(type(response))
print(response.status_code)
print(type(response.text))
print(response.text)
print(response.cookies)
print(response.content)  # 二进制
print(response.content.decode("utf-8"))

我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:
很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content
这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通过response.text直接返回显示乱码的问题.

请求发出后,Requests 会基于 HTTP 头部对响应的编码作出有根据的推测。当你访问 response.text 之时,Requests 会使用其推测的文本编码。你可以找出 Requests 使用了什么编码,并且能够使用 response.encoding 属性来改变它.如:

import requests
response = requests.get(
    url=\'https://www.autohome.com.cn/news/\'
)
response.encoding = response.apparent_encoding  # 使用默认的编码原则
print(response.text)

一个简单的get请求的爬虫结果:

如果我们想要在URL查询字符串传递数据,通常我们会通过httpbin.org/get?key=val方式传递。Requests模块允许使用params关键字传递参数,以一个字典来传递这些参数,格式如下:

# 实例方法一
import requests
response = requests.get("url?name=dandy&age=18")
print(response.text)


# 实例方法二
import requests
url = \'\'
data = {
    "name":"dandy",
    "age":18
}
response = requests.get(url,params=data)
print(response.url)
print(response.text)

上述两种的结果是相同的,通过params参数传递一个字典内容,从而直接构造url
注意:第二种方式通过字典的方式的时候,如果字典中的参数为None则不会添加到url上

 

获取二进制数据

在上面提到了response.content,这样获取的数据是二进制数据,同样的这个方法也可以用于下载图片以及
视频资源

 

添加headers
和前面我们将urllib模块的时候一样,我们同样可以定制headers的信息,如当我们直接通过requests请求知乎网站的时候,默认是无法访问的。谷歌浏览器里输入chrome://version,就可以看到用户代理,将用户代理添加到头部信息:

也可以随便输入一个网址:

都可以获取到。 

copy出来仿造的请求头信息

import requests
url = \'\'
headers = {

    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
response =requests.get(url,headers=headers)

print(response.text)

 

post请求

通过在发送post请求时添加一个data参数,这个data参数可以通过字典构造成,这样
对于发送post请求就非常方便

import requests
url = \'\'
data = {
    "name":"dandy",
    "age":18
}
response = requests.post(url,data=data)
print(response.text)

同样的在发送post请求的时候也可以和发送get请求一样通过headers参数传递一个字典类型的数据

 

模拟登陆&自动点赞

首先打开抽屉,点击登陆,打开开发者模式,随意的输入账号密码,然后点击登陆,可以的到如下的图:

备注:之前抽屉是不会去抓去请求头的终端设备信息的,现在有验证了,0.0

首先需要大佬们去注册一下账号密码,然后我们来模拟浏览器登陆,这里需要注意的一点是,登陆的时候可以注意一下,如果浏览器刷新了,那肯定是form验证,如果没有那就一定是ajax验证。所以这里不用说,测试一下就发现是ajax验证:

import requests
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}  # header里伪造终端信息
post_dict = {
    \'phone\': \'8615988888888\',
    \'password\': \'*******\',
    \'oneMonth\': 1
}
response = requests.post(
    url=\'https://dig.chouti.com/login\',
    data=post_dict,
    headers=headers
)
print(response.content)
cookie_dict = response.cookies.get_dict()
print(cookie_dict)

这里,既然是ajax登陆,返回的可以猜到一定是json数据:

b\'{"result":{"code":"9999", "message":"", "data":{"complateReg":"0","destJid":"cdu_51970753537"}}}\'
{\'gpsd\': \'4fa04e9978e550f8d6ea1fb5418184ee\', \'puid\': \'c3c133fab0b2ba4bcb5e0f9b494501cd\', \'JSESSIONID\': \'aaahPA3kgUc2yhWM_9xsw\'}

到现在为止,已经顺利的实现了登陆功能,然后实现了,大家应该都知道为什么要抓取一下cookies打印出来吧?

cookies的真正的意义就是在于当第一次登陆完,之后就可以直接带着服务器返回的cookies去向服务器发送请求。之后就可以肆意妄为了!!!

现在我们来实现一下自动点赞的功能,首先找一篇文章,点个赞:

由上,可以发现点赞的网址,post的数据等,此时取消点赞,写代码:

import requests
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
post_dict = {
    \'phone\': \'8615962180289\',
    \'password\': \'zhangy321281\',
    \'oneMonth\': 1
}
response = requests.post(
    url=\'https://dig.chouti.com/login\',
    data=post_dict,
    headers=headers
)
print(response.content)
cookie_dict = response.cookies.get_dict()
print(cookie_dict)

response_vote = requests.post(
    url=\'https://dig.chouti.com/link/vote?linksId=20819056\',
    cookies=cookie_dict
)
print(response_vote)

信心满满写好了:

b\'{"result":{"code":"9999", "message":"", "data":{"complateReg":"0","destJid":"cdu_51970753537"}}}\'
{\'gpsd\': \'74338b2cda9e9a355a52854b95474e3a\', \'puid\': \'07fd1754895aefa93b4b46fb52990f7f\', \'JSESSIONID\': \'aaavRXk12M4Kidy5_9xsw\'}
<Response [403]>

什么??怎么会这样??拿着浏览器返回的cookie怎么不可以呢?那该怎么办?

管不了那么多,先用笨方法来测试cookies里面哪一个控制这登陆状态认证:

取消点赞,重新测试代码点赞:

import requests
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
response = requests.post(
    url=\'https://dig.chouti.com/link/vote?linksId=20819056\',
    cookies={
        \'gpsd\': \'5db40ff97b8dd603f70288157d2bdd8f\'  # 因为没办法,所以只能用浏览器的cookies做验证,一次次取一个值
    },
    headers=headers
)
print(response.text)

测试结果:

{"result":{"code":"9999", "message":"推荐成功", "data":{"jid":"cdu_51970753537","likedTime":"1531564084343000","lvCount":"10","nick":"衰Zzz","uvCount":"1","voteTime":"小于1分钟前"}}}

天呐!!!成功了!!!

 

所以我们可以先跟踪确定了,肯定是gpsd有问题。

这时候退出登陆重新刷新网页:

记录一下cookies:

cookie: gpsd=5db40ff97b8dd603f70288157d2bdd8f; gpid=d4a8c7f4454841bd8bd640f5f5565420; JSESSIONID=aaaKh89UOAJIy_PfW8xsw

不免有些疑问,为什么第一次get就有cookies,

此时我们再用代码测试一下gpsd的值:

import requests
headers = {
    "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
response_get = requests.get(
    url=\'https://dig.chouti.com/\',
    headers=headers
)
print(response_get.cookies.get_dict())
post_dict = {
    \'phone\': \'8615988888888\',
    \'password\': \'********\',
    \'oneMonth\': 1
}
response_post = requests.post(
    url=\'https://dig.chouti.com/login\',
    data=post_dict,
    headers=headers
)
print(response_post.content)
cookie_dict = response_post.cookies.get_dict()
print(cookie_dict)

查看cookies对比:

{\'gpsd\': \'38644be424cebb27e1cc631dd84ae9d2\', \'JSESSIONID\': \'aaaKwMAE52emjedIW-xsw\'}
b\'{"result":{"code":"9999", "message":"", "data":{"complateReg":"0","destJid":"cdu_51970753537"}}}\'
{\'gpsd\': \'7b32421f6a73365b2dbb6b9739afaaff\', \'puid\': \'497b5a7249b8538e70ac87ead562c91f\', \'JSESSIONID\': \'aaa5sbGP7XecWf15W8xsw\'}

发现两次的gpsd不一致,从web开发者角度登陆之后的cookies一定是不会再去进行改变,所以前后一共就有这么两种可能性的cookies,上面的点赞失败了,那就代表返回的cookies一定是没有用的:

那是不是可以猜想认证的gpsd会不会是第一次的gpsd值,但是一想又不太可能,因为第一次的还没有认证,怎么能保证呢?那会不会是第一次的gpsd再登陆的时候传过去做了认证,然后浏览器记录了它,但是为了防止爬虫做了一份假的gpsd给你 ,想到这里不免想测试一下:

import requests
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
response_get = requests.get(
    url=\'https://dig.chouti.com/\',
    headers=headers
)
r1 = response_get.cookies.get_dict()  # 第一次get请求获取服务器给的cookies
post_dict = {
    \'phone\': \'8615988888888\',
    \'password\': \'********\',
    \'oneMonth\': 1,
}
response_post = requests.post(
    url=\'https://dig.chouti.com/login\',
    data=post_dict,
    headers=headers,
    cookies=r1  # 第二次再把第一次得到的cookies传回去进行认证授权
)
print(response_post.content)
r2 = response_post.cookies.get_dict()  # 这个是个骗子!!!

response_vote = requests.post(
    url=\'https://dig.chouti.com/link/vote?linksId=20819056\',
    cookies={
        \'gpsd\': r1[\'gpsd\']
    },
    headers=headers
)
print(response_vote.text)

测试结果:

b\'{"result":{"code":"9999", "message":"", "data":{"complateReg":"0","destJid":"cdu_51970753537"}}}\'
{"result":{"code":"9999", "message":"推荐成功", "data":{"jid":"cdu_51970753537","likedTime":"1531565602774000","lvCount":"16","nick":"衰Zzz","uvCount":"1","voteTime":"小于1分钟前"}}} 

完成!!

爬虫登陆GitHub实战:https://www.cnblogs.com/wuzdandz/p/9338543.html

请求

前面已经讲过基本的GET请求,下面稍微详谈一下带参数的请求:

import requests
# 方法一
response = requests.get(\'http://****.com/?name=dandy&age=18\')
print(response.text)

# 方法二
import requests
data = {
    "name":"dandy",
    "age":18
}
response = requests.get("http://*****.com",params=data)
print(response.url)  # 提交url
print(response.text)
本质上方法二会被转换成方法一
    请求头:
        content-type:application/url-form-encod......
    请求体:
        user=dandy&age=18
    局限性在于传递的value只能是字符串,数字,列表,不能是字典,

上述两种的结果是相同的,通过params参数传递一个字典内容,从而直接构造url。
注意:第二种方式通过字典的方式的时候,如果字典中的参数为None则不会添加到url上

 

json

import requests
import json
url = \'\'
response = requests.get(url)
print(type(response.text))
print(response.json())
print(json.loads(response.text))
print(type(response.json()))

从结果可以看出requests里面集成的json其实就是执行了json.loads()方法,两者的结果是一样的

data = {\'user\': \'dandy\', \'age\': 18}    ==>    json数据 "{\'user\': \'dandy\', \'age\': 18}"
    请求头:
        content-type:application/json....
    请求体:
        user=dandy&age=18
    可以传递字典嵌套的字典

获取二进制数据

在上面提到了response.content,这样获取的数据是二进制数据,同样的这个方法也可以用于下载图片以及
视频资源

添加headers
和前面我们将urllib模块的时候一样,我们同样可以定制headers的信息,如当我们直接通过requests请求知乎网站的时候,默认是无法访问的

之前的实例抽屉自动登陆,就定制了请求头headers

Referer:
    requests.request(
        method="POST",
        url = url1,
        params={\'k1\': v1, \'k2\': \'v2\'},
        json = {\'user\': \'dandy\', \'age\': 18}
        headers={
            "Referer": url/login,  # 判断上一次请求的网站是不是也是本网站,不是的话默认为非正常访问
            "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
        }
    )

 

cookie

import requests

response = requests.get("http://www.baidu.com")
print(response.cookies)

for k, v in response.cookies.items():
    print(k + "=" + v)

Cookie放在请求头里面发送的

 

POST请求

通过在发送post请求时添加一个data参数,这个data参数可以通过字典构造成,这样
对于发送post请求就非常方便

import requests

data = {
    "name":"dandy",
    "age":18
}
response = requests.post("http://*****.com",data=data)
print(response.text)

同样的在发送post请求的时候也可以和发送get请求一样通过headers参数传递一个字典类型的数据

*************************************************************************************
在Django内部,如果是以post传递过去数据data = {\'user\': \'dandy\', \'age\': 18};
请求头:
content-type:application/url-form-encod......
请求体:
user=dandy&age=18
根据请求头的不同决定是否请求体里面的data转换并放到request.POST里面
*************************************************************************************

 

响应

我们可以通过response获得很多属性,例子如下

import requests

response = requests.get("http://www.baidu.com")
print(type(response.status_code),response.status_code)
print(type(response.headers),response.headers)
print(type(response.cookies),response.cookies)
print(type(response.url),response.url)
print(type(response.history),response.history)

状态码判断
Requests还附带了一个内置的状态码查询对象
主要有如下内容:

100: (\'continue\',),
101: (\'switching_protocols\',),
102: (\'processing\',),
103: (\'checkpoint\',),
122: (\'uri_too_long\', \'request_uri_too_long\'),
200: (\'ok\', \'okay\', \'all_ok\', \'all_okay\', \'all_good\', \'\\o/\', \'✓\'),
201: (\'created\',),
202: (\'accepted\',),
203: (\'non_authoritative_info\', \'non_authoritative_information\'),
204: (\'no_content\',),
205: (\'reset_content\', \'reset\'),
206: (\'partial_content\', \'partial\'),
207: (\'multi_status\', \'multiple_status\', \'multi_stati\', \'multiple_stati\'),
208: (\'already_reported\',),
226: (\'im_used\',),

Redirection.
300: (\'multiple_choices\',),
301: (\'moved_permanently\', \'moved\', \'\\o-\'),
302: (\'found\',),
303: (\'see_other\', \'other\'),
304: (\'not_modified\',),
305: (\'use_proxy\',),
306: (\'switch_proxy\',),
307: (\'temporary_redirect\', \'temporary_moved\', \'temporary\'),
308: (\'permanent_redirect\',
\'resume_incomplete\', \'resume\',), # These 2 to be removed in 3.0

Client Error.
400: (\'bad_request\', \'bad\'),
401: (\'unauthorized\',),
402: (\'payment_required\', \'payment\'),
403: (\'forbidden\',),
404: (\'not_found\', \'-o-\'),
405: (\'method_not_allowed\', \'not_allowed\'),
406: (\'not_acceptable\',),
407: (\'proxy_authentication_required\', \'proxy_auth\', \'proxy_authentication\'),
408: (\'request_timeout\', \'timeout\'),
409: (\'conflict\',),
410: (\'gone\',),
411: (\'length_required\',),
412: (\'precondition_failed\', \'precondition\'),
413: (\'request_entity_too_large\',),
414: (\'request_uri_too_large\',),
415: (\'unsupported_media_type\', \'unsupported_media\', \'media_type\'),
416: (\'requested_range_not_satisfiable\', \'requested_range\', \'range_not_satisfiable\'),
417: (\'expectation_failed\',),
418: (\'im_a_teapot\', \'teapot\', \'i_am_a_teapot\'),
421: (\'misdirected_request\',),
422: (\'unprocessable_entity\', \'unprocessable\'),
423: (\'locked\',),
424: (\'failed_dependency\', \'dependency\'),
425: (\'unordered_collection\', \'unordered\'),
426: (\'upgrade_required\', \'upgrade\'),
428: (\'precondition_required\', \'precondition\'),
429: (\'too_many_requests\', \'too_many\'),
431: (\'header_fields_too_large\', \'fields_too_large\'),
444: (\'no_response\', \'none\'),
449: (\'retry_with\', \'retry\'),
450: (\'blocked_by_windows_parental_controls\', \'parental_controls\'),
451: (\'unavailable_for_legal_reasons\', \'legal_reasons\'),
499: (\'client_closed_request\',),

Server Error.
500: (\'internal_server_error\', \'server_error\', \'/o\\\', \'✗\'),
501: (\'not_implemented\',),
502: (\'bad_gateway\',),
503: (\'service_unavailable\', \'unavailable\'),
504: (\'gateway_timeout\',),
505: (\'http_version_not_supported\', \'http_version\'),
506: (\'variant_also_negotiates\',),
507: (\'insufficient_storage\',),
509: (\'bandwidth_limit_exceeded\', \'bandwidth\'),
510: (\'not_extended\',),
511: (\'network_authentication_required\', \'network_auth\', \'network_authentication\'),

通过下面例子测试:(不过通常还是通过状态码判断更方便) 

import requests

response= requests.get("http://www.baidu.com")
if response.status_code == requests.codes.ok:
    print("访问成功")

 

requests高级用法

文件上传

实现方法和其他参数类似,也是构造一个字典然后通过files参数传递

requests.post(
    url=\'xxx\',
    files={
        \'f1\': open(\'a.csv\', \'rb\'),  # 上传文件对象,默认名称为文件名称
        \'f2\': (filename, open(\'b.csv\', \'rb\'))  # 自定义文件名
        }
)

 

证书认证

现在的很多网站都是https的方式访问,所以这个时候就涉及到证书的问题

import requests
response = requests.get("https://www.12306.cn")
print(response.status_code)

默认的12306网站的证书是不合法的,这样就会提示如下错误

为了避免这种情况的发生可以通过verify=False,这样是可以访问到页面的:

import requests
response = requests.get("https://www.12306.cn", verify=False)
print(response.status_code)

结果如下:

certificate verification is strongly advised. See: https://urllib3.readthedocs.io/en/latest/advanced-usage.html#ssl-warnings
  InsecureRequestWarning)
200

解决方法:

import requests
import urllib3
urllib3.disable_warnings()
response = requests.get("https://www.12306.cn", verify=False)
print(response.status_code)

这样就不会提示警告信息,当然也可以通过cert参数放入证书路径

关于证书有两种:

verify:证书    https:    ==>    ssl加密
    requests.get(
        url=\'https://...\',
        cert=\'abc.pem\',  # 自己制作的证书    pem证书格式
    )

    requests.get(  # 厂商制作好的,在系统创建时就已经植入,直接购买权限
        url=\'https://...\',
        cert=(\'abc.crt\', \'xxx.key\'),

                    
    )
    verify:False  忽略证书,直接交互

代理设置

import requests

proxies= {
    "http":"http://127.0.0.1:9999",
    "https":"http://127.0.0.1:8888"
}
response  = requests.get("https://www.baidu.com",proxies=proxies)
print(response.text)

如果代理需要设置账户名和密码,只需要将字典更改为如下:
proxies = {
  "http":"http://user:password@127.0.0.1:9999"
}
如果你的代理是通过sokces这种方式则需要pip install "requests[socks]"
proxies= {
  "http":"socks5://127.0.0.1:9999",
  "https":"sockes5://127.0.0.1:8888"
}

请求不是发送到目的URL的,而是先发送给代理,代理再去发送请求

 

超时设置

通过timeout参数可以设置超时的时间,等服务器多长时间放弃

(a,b)    ==>    a 发送最长时间;b 等待最长时间

 

 

认证设置

如果碰到需要认证的网站可以通过requests.auth模块实现

import requests

from requests.auth import HTTPBasicAuth

response = requests.get("http://120.27.34.24:9001/",auth=HTTPBasicAuth("user","123"))
print(response.status_code)

另一种方式:

import requests

response = requests.get("http://120.27.34.24:9001/",auth=("user","123"))
print(response.status_code)

基本登陆框 md5加密请求头发送过去, 用户名&密码

 

 

重定向设置

allow-redirects:是否允许重定向到新的地址拿数据

 

分流迭代设置

流,如果为false,会一次性下载,如果为true,会一点一点的下载,迭代拿 

 

session设置(持久化)

还记得前面大费周章的去把cookies值装进headers,重新认证么?现在用session来改写一下!!!

import requests
session = requests.Session()

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"
}
# 1、首先登陆任何页面,获取cookie
r1 = session.get(
    url=\'https://dig.chouti.com/\',
    headers=headers
)
# 2、用户登陆,携带上一次的cookie,后台对cookie中的gpsd进行授权
post_dict = {
    \'phone\': \'8615988888888\',
    \'password\': \'zhang1111111\',
    \'oneMonth\': 1,
}
r2 = session.post(
    url=\'https://dig.chouti.com/login\',
    data=post_dict,
    headers=headers
)
# 点赞
r3 = session.post(
    url=\'https://dig.chouti.com/link/vote?linksId=20819051\',
    headers=headers
)
print(r3.text)

结果输出: