不知羞耻！！我居然爬取了图X网站的图片

Posted 2021-06-05 Jack·Kwok

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了不知羞耻！！我居然爬取了图X网站的图片相关的知识，希望对你有一定的参考价值。

不知羞耻！！我居然爬取了图X网站的图片？？？

写在前面
- 目标网站
- 个人声明
思路分析
源码展示
- 需要安装并导入的库
- 完整代码
运行结果
- 总结

写在前面

目标网站

个人声明

本网站提供的图片均为版权图片，因此本文爬取仅为提供初学者学习教程，不准用于商业用途！！！

思路分析

整体思路是：

爬取所有热门摄影师的个人数据；
根据摄影师的编号去获取摄影师的所有作品并下载；
获取标签（部分）；
获取指定标签下的图片并下载（部分）

源码展示

需要安装并导入的库

os			   与文件操作相关的库
requests       与请求网络数据相关的库

完整代码

import os
import requests

# 摄影师作品网站
url = "https://tuchong.com/rest/users/rank"
# 设置访问headers
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/89.0.4389.114 Safari/537.36"
}

# 获取热门摄影师基本数据
def getAuthor():
    # 准备页码数
    pages = [1,2,3]
    # 定义数据存储所有数据
    data = []
    # 循环每个页面
    for page in pages:
        # 访问页面需要传入的参数，page设置为每一页
        params = {
            "page": page,
            "count": 20,
            "order": "daily-rank",
            "_signature": "_02B4Z6wo00101Z8YmcAAAIDCL - l1CeDGVVWfHJ1AAAdKF9bxwH8VsNrDbTu5UyndXDV2Dy8mquKyKJ.8t57VY2U0sRjCxzuZZKDSpfSCQ08e4g - dB1mV - Nmc1MSLcMZTBAs1CJVENxYJwyA - d1"
        }
        # 访问并返回结果
        resp = requests.get(url,headers=headers,params= params)
        # 获取结果的json数据
        js = resp.json()
        # 解析json数据
        infos = js['data']['user_list']
        # 定义集合存储单条记录
        li = []
        # 遍历每一条记录并存储到集合中
        for info in infos:
            li.append("描述："+info['description'])
            li.append("粉丝数："+str(info['followers']))
            li.append("位置："+info['location'])
            li.append("昵称："+info['name'])
            li.append("编号："+info['site_id'])
            # 将集合存到data中
            data.append(li)
            # 初始化集合
            li=[]
    # 最后返回结果
    return data

#根据摄影师的编号获取其图片链接并下载
# 参数：摄影师编号、图片将要下载的地址(如：r'D:/')
def downlandImg(num,mUrl):
    # 定义需要获取的链接
    url = "https://tuchong.com/rest/2/sites/"+str(num)+"/posts";
    # 访问链接
    resp = requests.get(url, headers=headers)
    # 得到结果的json数据
    js = resp.json()
    # 获取该摄影师的摄影作品个数
    count = int(js['counts'])
    print(count)
    # 定义集合存储数据
    all_data = []
    # 遍历每个作品
    item = js['post_list']
    for it in item:
        dk = it['images']
        for d in dk:
            imgUrl = d['source']['f']
            all_data.append(imgUrl)
            print(imgUrl)
    print(all_data)

    # 下载图片
    mkurl = mUrl+str(num)
    # 新建文件夹
    os.makedirs(mkurl, exist_ok=True)
    num = 1
    for lastUrl in all_data:
        re = requests.get(lastUrl)
        # 图片命名格式为1,2，3.。。。
        with open(mkurl+"/"+str(num)+".jpg",'wb') as f:
            f.write(re.content)
            f.close()
        num = num+1
    print("over..")
    return all_data

# 获取标签（由于标签巨多，因此仅提供部分标签）
def getTag():
    url = "https://tuchong.com/rest/tag-categories/subject"
    params = {
        "page": 1,
        "count": 20,
        "_signature": "_02B4Z6wo00f01DO - QrAAAIDDg0 - ue2aYXmwzukYAAGyFAJl3wjTEwob2 - moL4UzmzWyB3C6EGfchdImzF.gzWouNg1XUqkuEFPhgz69GwCICrtJKKA3kwOcpsn0BxCmZazixKOKz.SJL0gLK5b"
    }
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36"
    }
    resp = requests.get(url, headers=headers, params=params)
    js = resp.json()
    data = js['data']['tag_list']
    li = []
    for da in data:
        li.append(da['tag_name'])
    return li

# 根据自定义下载地址和标签获取资源图片并下载（因为每个标签内容巨多，因此仅提供标签下的部分图片）
def downlandByTag(dUrl,tag):
    url = "https://tuchong.com/rest/tags/"+tag+"/posts"
    params  = {
        "page": 1,
        "count": 20,
        "order": "weekly",
        "before_timestamp":''
    }
    resp = requests.get(url, headers=headers, params=params)
    js = resp.json()
    tt = js['postList']
    li = []
    for t in tt:
        tagUrl = t['cover_image_src']
        li.append(tagUrl)
    print(li)
    # 下载图片
    mkurl = dUrl+ tag
    os.makedirs(mkurl, exist_ok=True)
    num = 1
    for l in li:
        re = requests.get(l)
        with open(mkurl + "/" + str(num) + ".jpg", 'wb') as f:
            f.write(re.content)
            f.close()
        num = num + 1
    print("over..")
    return li

# 测试代码
if __name__ == '__main__':
    # 获取所有热门摄影师信息并打印
    data = getAuthor()
    for da in data:
        print(da)
    # 根据摄影师标签和自定义图片下载地址下载该摄影师的所有作品并返回作品链接
    all_data = downlandImg(15711995,r'D:/uiui/')
    for all in all_data:
        print(all)
    # 获取标签（仅部分）
    # 虽然仅提供部分图片，但通过修改代码可获得所有图片，这里不详细展开，毕竟是以学习为目的
    li = getTag()
    # 获取标签的图片（仅部分）
    li = downlandByTag(r'D:/uiui/',"树")