糗图-图片爬取

Posted 2022-08-20 zx125

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了糗图-图片爬取相关的知识，希望对你有一定的参考价值。

糗图-图片爬取

主要思路

1.来到首页，查看主页有用图片存在html的规律

2.编写re提取图片路径

3.右键图片查看请求图片的具体路径

4.拼接图片请求路径

5.查看下一页界面的路径，找到界面请求路径规律

6.work,多界面爬取指定图片爬虫

import requests
import re
import os
headers = 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"


def get_page(page_size):
     for i in range(1,page_size+1):
         url = f"https://www.qiushibaike.com/pic/page/i/?s=5222080"
         res=requests.get(url=url,headers=headers)
         #解析图片路径
         pic_list=re.findall('<div class="thumb">[\s\S]*?<img src="(.*?)" alt',res.text,re.S)
         for i in pic_list:
             i='https:'+i
             pic_res=requests.get(url=i,headers=headers).content
             file_name=i.split("/")[-1]
             #图片数据写入本地文件夹
             with open(f'pic/file_name',"wb")as fw:
                 fw.write(pic_res)
                 print(file_name+"写入成功")

if __name__ == '__main__':
    if not os.path.exists("./pic"):
        os.mkdir("./pic")
    #自定义爬取界面页数
    get_page(3)

以上是关于糗图-图片爬取的主要内容，如果未能解决你的问题，请参考以下文章