Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!
Posted 派森攻城狮
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!相关的知识,希望对你有一定的参考价值。
cookie在发明之初,为了帮助服务器同步网页上的用户信息,同时保存用户操作,以此减轻服务器压力。
没有cookie之前,人们还停留在像电视一样只能对网页进行点播,网站分辨不出是谁在通信。
题外话:第一代密码,属于通用性的密钥
有了cookie后,你就那个网页做交互了,这时才有了网站账号。
由正在浏览的网站创建的cookie被称为第一方cookie。
这个东西很重要,你要是不信邪,把这种第一方cookie给禁止了,
那么,恭喜你,回到了广播时代。
Python requests库默认是打开了cookie的。
– 检查cookie
import requests
from requests.cookies import RequestsCookieJar
headers = {
'Host': 'accounts.douban.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
'Accept-Encoding': 'gzip, deflate, br',
'Connection': 'keep-alive'
}
request_url = "https://accounts.douban.com/passport/login"
res = requests.get(request_url, headers=headers)
status_code = res.status_code
res_header = res.headers
res_cookies = res.cookies
cookie1111 = res.cookies.get_dict() # 格式化 字典形式输出
cookie2222 = requests.utils.dict_from_cookiejar(res_cookies) # 格式化 字典形式输出
for cookie in res_cookies:
print(cookie.name+"\\t"+cookie.value)
print("响应状态码:", status_code)
print("响应请求请求头:", res_header)
print("响应cookies:", res_cookies)
print("格式化cookie1111 :", cookie1111)
print("格式化cookie2222 :", cookie2222)
– 到这里自带cookie说明白了!
接下来,我们引入一个概念 第三方cookie,
使用空浏览器来看下效果。
清除浏览器cookie记录,也可以进行模拟。
进入一个网站csdn.net,
然后点击网页地址栏左侧的那个小锁就能看到这些信息。
正在访问的csdn.net以外
还有来自其它40个cookie,这些在你访问的网址之外的域名,创建的cookie就被称作,作为第三方cookie。
这些第三方cookie怎么来的呢?他们又有什么作用了。
你通过进入csdn.com,这个网站就访问了baidu.com的服务器了。
咱们按下F12进入浏览器的开发者模式中,观察一下网络结构。
仔细查看一下这个网站的加载,我们可以在它的目录中发现baidu.com来源,他使用了baidu.com提供的功能,编写进了自己的网站代码中。
– 我们在访问这个网站的过程中,也同时使用了百度为你提供的服务,那么这个服务是什么呢?
# 不得不提cookie的另外一个作用! ## 除了可以绑定网页和用户的身份,还可以记录网页的浏览历史。 ### 这样就给 ==广告提供商== 机会,使用不同的代码模块,嵌入到不同的网站中,以此实行产品推荐。 ### 第三方cookie,它默默的,把你的喜好记录下来,在你进入其他网站时,再通过读取之前已经记录好的信息,这样就能对你进行个性化广告推荐。
禁用第三方cookie是不是就没有广告了?
这也是爬虫遇到最多的情况。
手动模拟一下,禁用第三方cookie,会发现 验证码 输入次数开始变得频繁了。
鉴于此,爬虫产生了另外一个工具selenium。
写在最后
1.了解历史,有助于,我们更好的定位问题。
2.很多博主只告诉你们,第二次爬去的时候需要携带cookie,对第三方cookie只字不提
import requests
cookies="从网上复制的cookie值"
cookies_dict={}
for i in cookies.split("; "):
cookies_dict[i.splict('=')[0]] = i.splict('=')[1]
html=requests.get(url='',cookies=cookies_dict}
3.更高级的工具,学习,使用。
以上是关于Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!的主要内容,如果未能解决你的问题,请参考以下文章