爬动漫“上瘾”之后，放弃午休，迫不及待的用Python薅了腾讯动漫的数据，啧啧啧

Posted 2021-10-03 梦想橡皮擦

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了爬动漫“上瘾”之后，放弃午休，迫不及待的用Python薅了腾讯动漫的数据，啧啧啧相关的知识，希望对你有一定的参考价值。

这是爬虫 120 例的第 10 篇

本篇博客在编写的过程中，擦哥跟我说，他顺带复习了一遍 《一人之下》 和 《至尊瞳术师：绝世大小姐》 ，doge。

阅读本文，你将收获

5000+腾讯动漫数据；
正则表达式区域提取；
多线程爬虫。

腾讯动漫数据大采集术

目标数据源分析

爬取目标网站

本次抓取的目标网站为：https://ac.qq.com/Comic/index/page/1。

针对上图数据，本文将采集下图框选区域数据，同时本文将通过正则表达式进行区域块匹配。

使用的 Python 模块

requests 模块，re 模块，fake_useragent 模块，threading 模块。

重点学习内容

本文在学习的过程中，重点掌握 fake_useragent 模块与正则表达式分块提取，以及 CSV 文件特殊符号问题。

列表页分析

通过开发者工具页面，查看网页数据由服务器直接返回，顾直接通过正则表达式提取数据即可。

提取过程中，先提取每一动漫所在的 li 标签，然后再提取标签内具体数据信息。

页面规则比较简单，罗列如下：

https://ac.qq.com/Comic/index/page/1
https://ac.qq.com/Comic/index/page/2
https://ac.qq.com/Comic/index/page/3

整理需求如下

限制 5 个线程爬取数据；
写入文件通过线程互斥锁，防止异常；
清洗数据，再存储；
因为保存格式为 CSV 文件，所以需要处理 ,，" 等特殊符号。

编码时间

本次爬虫学习引入一个新的库，fake_useragent，该库用于随机获取请求参数中的 User-Agent，

使用前需提前通过 pip 进行安装，简易 Demo 如下：

from fake_useragent import UserAgent
ua = UserAgent()
headers= {'User-Agent':ua.random}

如果上述代码出现 BUG，一般禁用浏览器缓存问题即可。

ua = UserAgent(use_cache_server=False)

另一个在本文需要注意的一点是，优先使用正则表达式提取父级标签，再在父级标签内部提取子级标签，具体如下图所示。第一步提取绿色方框数据，第二步提取红色方框数据。

在写入 CSV 文件处，需要注意使用了线程互斥锁，防止文件写入异常。锁的声明在 main 部分，案例完整代码如下所示，部分逻辑直接写在注释部分。

import requests
from fake_useragent import UserAgent
import re
import threading


def replace_mark(my_str):
    return my_str.replace(",", "，").replace('"', "“")


def format_html(html):
	# 各提取正则表达式部分，编写人橡皮擦@CSDN
    li_pattern = re.compile(
        '<li\\sclass="ret-search-item clearfix">[\\s\\S]+?</li>')
    title_url_pattern = re.compile(
        '<a href="(.*?)" target="_blank" title=".*?">(.*?)</a>')
    sign_pattern = re.compile('<i class="ui-icon-sign">签约</i>')
    exclusive_pattern = re.compile('<i class="ui-icon-exclusive">独家</i>')
    author_pattern = re.compile(
        '<p class="ret-works-author" title=".*?">(.*?)</p>')
    tags_pattern = re.compile('<span href=".*?" target="_blank">(.*?)</span>')
    score_pattern = re.compile('<span>人气：<em>(.*?)</em></span>')
    items = li_pattern.findall(html)
    # 依次迭代提取的 li 标签
    for item in items:
        title_url = title_url_pattern.search(item)
        title = title_url.group(2)
        url = title_url.group(1)
        sign = 0
        exclusive = 0
        # 数据非空检验
        if sign_pattern.search(item) is not None:
            sign = 1
        if exclusive_pattern.search(item) is not None:
            exclusive = 1

        author = author_pattern.search(item).group(1)
        tags = tags_pattern.findall(item)
        score = score_pattern.search(item).group(1)
        # 锁开启
        lock.acquire()
        with open("./acqq.csv", "a+", encoding="utf-8") as f:
            f.write(
                f'{replace_mark(title)},{url},{sign},{exclusive},{replace_mark(author)},{"#".join(tags)},"{replace_mark(score)}" \\n')
		# 锁关闭
        lock.release()


def run(index):

    ua = UserAgent(use_cache_server=False)

    response = requests.get(
        f"https://ac.qq.com/Comic/index/page/{index}", headers={'User-Agent': ua.random})
    html = response.text
    format_html(html)
    # 注意释放线程
    semaphore.release()


lock = threading.Lock()
if __name__ == "__main__":
    num = 0
    semaphore = threading.BoundedSemaphore(5)
    lst_record_threads = []
    for index in range(1, 462):
        print(f"正在抓取{index}")
        semaphore.acquire()
        t = threading.Thread(target=run, args=(index, ))
        t.start()
        lst_record_threads.append(t)

    for rt in lst_record_threads:
        rt.join()

    print("数据爬取完毕")