他说：“只是单纯的想用Python收集一些素颜照，做机器学习使用”，“我信你个鬼！”

Posted 2021-07-06 梦想橡皮擦

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了他说：“只是单纯的想用Python收集一些素颜照，做机器学习使用”，“我信你个鬼！”相关的知识，希望对你有一定的参考价值。

今天，他爬取了 上千张 相亲素颜照。跟我说？刷相亲平台，收集素颜照，训练机器模型。这也能信？
她们明明化妆了。

阅读本文你将收获

近万张素颜头像；
lxml 解析库初识；
XPath 语法初识；
Cooike 反爬；
女朋友（没准是意外收获）

Python 采集 19 楼相亲女生头像

从本篇博客开始，你将进入爬虫 120 例的第二个小阶段，requests + lxml 实现爬虫。

requests 相信通过前面 10 个案例，你已经比较熟悉了，接下来我们在其基础上，新增一款爬虫解析库 lxml。该库主要用于 XML，html 的解析，而且解析效率非常高，使用它之后，你就可以摆脱编写正则表达式的烦恼了。

目标数据源分析

爬取目标网站

本次抓取目标是 19 楼女生相亲频道，该分类频道截止 7 月 1 日还在持续更新中。

https://www.19lou.com/r/1/19lnsxq.html

以下图片来自网页截图，如有侵权，及时联系橡皮擦哦~

他说：“只是单纯的想用Python收集一些素颜照，做机器学习使用”，“我信你个鬼！”

本次爬取的目标为上图头像图片，文件名保存为标题内容。

使用的 Python 模块

requests 模块
lxml 模块
fake_useragent 模块

重点学习内容

lxml 模块初识。

列表页分析

本次抓取围绕列表页即可完成任务，列表页排序规则如下：

https://www.19lou.com/r/1/19lnsxq.html
https://www.19lou.com/r/1/19lnsxq_2.html
https://www.19lou.com/r/1/19lnsxq-233.html

图片所在标签如下所示，提取工作交给 lxml 模块完成，当然为了联系熟练程度，你依旧可以使用 re 模块完成一版。

他说：“只是单纯的想用Python收集一些素颜照，做机器学习使用”，“我信你个鬼！”
lxml 基础知识

提前通过 pip install lxml 对该库完成安装。

导入该库与该库的基本使用。

from lxml import etree
html = "一点HTML代码"
#生成一个 XPath 对象
html=etree.HTML(text)
# 提取数据
html.xpath('//li/a')

上述代码注释中提及的 XPath 对象，关于 XPath，是一门在 XML/HTML 文档中查找信息的语言，大意为通过特定语法在 HTML 中提取数据的语言，基础知识的学习，可以参考 https://www.w3school.com.cn/xpath/xpath_intro.asp，最佳的学习技巧是边查边用。

整理需求如下

批量生成待抓取列表页；
requests 请求目标数据；
lxml 提取目标数据；
保存图片。

编码时间

在编码时，为了防止直接被反爬识别，所在爬取过程中，增加一个等待时间，限制爬取速度（当然在后续发现没有对 IP 的限制，直接移除即可）。

代码编写过程中，如果出现如下错误，更新 fake_useragent 即可。

raise FakeUserAgentError('Maximum amount of retries reached')

更新脚本如下：

pip install -U fake-useragent

如果依旧失败，建议自己写随机生成 UserAgent 的函数。

一点点反爬

爬取该目标数据时，直接通过 requests 请求目标地址，会返回如下代码，该代码不是目标数据所在页面，即网站存在反爬技术。

直接请求目标网址，得到的响应代码如下图所示，注意红框位置。
他说：“只是单纯的想用Python收集一些素颜照，做机器学习使用”，“我信你个鬼！”

对 requests 请求到的数据进行分析，发现在返回的代码中设置了 Cookie，该值进行反复测试之后，发现为固定值，后续直接通过 requests 参数 headers 设置即可。

获取到目标页面源码之后，就可以通过 lxml 进行页面提取操作了，在前文已经进行了简单的描述。重点学习的分为两个部分内容：

首先通过 lxml 模块中的 etree 对象，将 HTML 源码进行序列化，即转化为 Element 对象；
然后对 Element 对象进行解析，这里用到的解析语法是 XPath，本文用到了路径解析，在完整代码部分有注释说明。

完整代码

import requests
from lxml import etree
from fake_useragent import UserAgent
import time


def save(src, title):
    try:
        res = requests.get(src)
        with open(f"imgs/{title}.jpg", "wb+") as f:
            f.write(res.content)
    except Exception as e:
        print(e)


def run(url):
    # ua = UserAgent(cache=False)
    ua = "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
    headers = {
        "User-Agent": ua,
        "Host": "www.19lou.com",
        "Referer": "https://www.19lou.com/r/1/19lnsxq-233.html",
        "Cookie": "_Z3nY0d4C_=37XgPK9h"  # 从反爬代码中获取到的值
    }
    try:
        res = requests.get(url=url, headers=headers)
        text = res.text
        # 将 html 转换成 Element 对象
        html = etree.HTML(text)
        # xpath 路径提取 @class 为选取 class 属性
        divs = html.xpath("//div[@class='pics']")
        # print(len(divs))
        # 遍历 Elements 节点
        for div in divs:
            # 提取地址，注意提取的属性为 data-src 而不是 src
            src = div.xpath("./img/@data-src")[0]
            # 提取标题
            title = div.xpath("./img/@alt")[0]
            save(src, title)
    except Exception as e:
        print(e)


if __name__ == '__main__':
    urls = ["https://www.19lou.com/r/1/19lnsxq.html"]
    for i in range(114, 243):
        urls.append(f"https://www.19lou.com/r/1/19lnsxq-{i}.html")
    for url in urls:
        print(f"正在抓取{url}")
        run(url)
        # time.sleep(5)

    print("全部爬取完毕")