爬虫学习 ----- 第二章爬取静态网站 ---------- 04 带着cookie去爬取东西

Posted 2021-05-18 Zero_Adam

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬虫学习 ----- 第二章爬取静态网站 ---------- 04 带着cookie去爬取东西相关的知识，希望对你有一定的参考价值。

1. 带着cookie去爬取东西

任务：

登陆->得到cookie
带着cookie 去请求到书架的 url ->爬取书架上的内容。
将上面的两个操作连接起来，
可以用session 进行请求，session，可以认为是一连串的请求。这个过程中的cookie 是不会丢失的。

在这里插入图片描述

1. 登陆：

在这里插入图片描述

import re
import requests

# 开启会话
session = requests.session()


header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}

url = 'https://user.17k.com/ck/user/login'
data={'loginName':"qghnQGHN369",'password':'qghnQGHN369'}

resp = session.post(url=url,data=data,headers = header)
print (resp.text)

1. 拿cookie呀，

不用拿cookie的，我们是session访问的，期间的cookie是不变的。

2. 拿书架上的数据。

那就点击书架，然后看包，看网页的数据，看看是从哪一个包里面来的。

在这里插入图片描述

在这里插入图片描述

一个吊样，，，

在这里插入图片描述

总代码：

# -*- coding: utf-8 -*-
# @Time:2021/5/4 23:15
# @Author: adam
# @File:demo1.py

import re
import requests

# 开启会话
session = requests.session()


header = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36'
}

url = 'https://user.17k.com/ck/user/login'
data={'loginName':"qghnQGHN369",'password':'qghnQGHN369'}

resp = session.post(url=url,data=data,headers = header)
# print (resp.text)
# print (resp.cookies) # 看cookie


# 2. 拿书架上的数据 ， 刚才那个session中是有 cookie的。
resp = session.get('https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919')
content = resp.text
# print (content)
obj1 = re.compile(r'bookName":"(?P<name>.*?)"',re.S)
resulet1 = obj1.finditer(content)
for it in resulet1:
    print (it.group('name'))