Python 中request数据的获取

Posted 2023-05-13

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python 中request数据的获取相关的知识，希望对你有一定的参考价值。

参考技术A 如何获取request的参数
在于客户端请求头Headers中参数：Content-Type的设置
以及传参的方式

一、Content-Type:application/json

二、 Content-Type:application/x-www-form-urlencoded

当然你可以通过输出看区别：

爬虫小试--用python中requests和urllib模块爬取图片

今天突发奇想小试爬虫,获取一下某素材站一些图片

实现步骤如下:

import re
import requests
from urllib import request
import os

# 1.首先要检查数据是否是动态加载出来的
# 2.获取页面源码数据
if not os.path.exists(‘tupian‘):
    os.mkdir(‘tupian‘)
headers = {
   "User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
}
url = "http://sc.chinaz.com/tupian/bingxueshijie.html"
page = requests.get(url=url, headers=headers) 
page.encoding=‘utf8‘  # 先解决乱码问题
page_text=page.text  # .text拿到html文本

ex = ‘<div class="box picblock col3".*?src2="(.*?)".*?</p>.*?</div>‘  
img_url_list = re.findall(ex, page_text, re.S)  # 正则匹配

for img_url in img_url_list:
    img_path = ‘tupian/‘ + img_url.split("/")[-1]  # 本地存放的文件路径
    
    request.urlretrieve(url=img_url, filename=img_path)
    print(img_path , "获取成功")

结果:

tupian/bpic9987_s.jpg 获取成功
tupian/bpic9944_s.jpg 获取成功
tupian/zzpic15470_s.jpg 获取成功
tupian/hpic428_s.jpg 获取成功
... 
# 还有一大推就不罗列了

期间遇到一点小坑, 此网站非常的鸡贼, 在网页点检查看到的前端代码并不是真正请求获得的, 而是请求发过去后前端对一些细节做了处理, 所以写正则匹配那一部分的时候不能参照网页检查现实的html

解决办法就是先发请求获得真正请求得到的html文本, 即page_text=page.text .text拿到html文本, 参照真正请求获得的文本写正则, 如此即可

还有一个小坑就是乱码问题, page.encoding=‘utf8‘ 即可解决

以上是关于Python 中request数据的获取的主要内容，如果未能解决你的问题，请参考以下文章

http-request 失败后获取状态文本

机械狗的机器学习入门——菜市场。2019/3/31

NodeJS - request对象

request.form()和request()的区别

无法从 Django request.POST 获取 POST 数据