Python爬虫爬取腾讯视频动漫专区的动漫及其描述

Posted 2021-02-17 ai2050

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Python爬虫爬取腾讯视频动漫专区的动漫及其描述相关的知识，希望对你有一定的参考价值。

闲来无事爬点动漫资讯看看

下面这个是腾讯视频动漫板块的超链接
[https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1]
技术图片
上面的红框中第一个是动漫的标题，第二个是动漫的咨询简单描述

如何用Python爬取上述信息

首先要用浏览器的开发者工具查到相应的信息实在那几个html文件中技术图片

上面的红框中就是对应的标签，但我们用正则表达式取标签的时候应该尽量取它的上一层标签（因为如果单单取名字标签，很难把对应的描述最后对应起来）

之后就开始代码的编写了

# -*- coding: utf-8 -*-
# @Time    : 2019/3/25 17:26
# @Author  : 
# @Email   : 
# @File    : .py
# @Software: PyCharm

import urllib.request
import re
from lxml import etree


def cartoonCrawler(url):
    headers = {
        "User-Agnet": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.98 Safari/537.36 LBBROWSER"
    }
    req = urllib.request.Request(url, headers = headers)
    response = urllib.request.urlopen(req)
    HTML = response.read().decode("utf-8")

    # re.S匹配换行符
    cartoon1 = re.compile(r‘<div class="figure_detail figure_detail_two_row">(.+?)</div>‘,re.S).findall(HTML)
    # print(cartoon1)
    dictCartoon = {}
    for i in cartoon1:
        # 将字符串转化为文本形式
        i=etree.HTML(i)
        # 关于xpath的详见https://blog.csdn.net/it_arookie/article/details/82825448
        name = i.xpath("//a[@class=‘figure_title figure_title_two_row bold‘]/@title")
        title = i.xpath("//div[@class=‘figure_desc‘]/@title")
        # 将匹配的不同标签的字典用字典的形式来组合成键值对
        dictCartoon[name[0]]=title[0]

    return dictCartoon

url = "https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1"
info = cartoonCrawler(url)

print(info)
for k,v in info.items():
    print("标题：",k,"  描述："+v)

结果，最后还可以通过动态请求继续获取的请求，这个下次再说


{‘斗罗大陆‘: ‘此生不悔入唐门‘, ‘狐妖小红娘‘: ‘鞘笛不离 至死不渝‘, ‘武动乾坤‘: ‘武之极，破苍穹，动乾坤‘, ‘灵剑尊‘: ‘落魄少主闯荡大陆，天地三界，我为至尊！‘, ‘雄兵连之诸天降临‘: ‘抗击外星入侵‘, ‘万界神主‘: ‘陨落古神，遨游苍蓝‘, ‘雪鹰领主‘: ‘超凡守护 热“雪”来袭‘, ‘魔道祖师‘: ‘仙门少年为民除害斩邪祟‘, ‘通灵妃‘: ‘年度鬼畜爱情大戏‘, ‘画江湖之不良人 第3季‘: ‘王者弈天下 大唐生死局‘, ‘猫妖的诱惑 正式版‘: ‘自古爱恨两难，当然是插他两刀‘, ‘巨兵长城传 第1季‘: ‘一场关乎世界安危的冒险‘, ‘狠西游 第2季‘: ‘18年12月 绝境重生！‘, ‘地灵曲‘: ‘3D动画版鬼吹灯‘, ‘斗破苍穹 第2季‘: ‘萧炎归来 风云再起‘, ‘全职高手‘: ‘十年热血书写电竞辉煌‘, ‘武庚纪 第2季‘: ‘商朝王子武庚逆袭记‘, ‘妖神记之影妖篇‘: ‘聂离融合妖灵迅速成长‘, ‘一人之下 第2季‘: ‘风起云涌罗天大醮‘, ‘斗罗大陆2 绝世唐门 动态漫画‘: ‘唐三之后，斗罗大陆新星降临。‘, ‘非人哉‘: ‘神仙妖怪的爆笑日常‘, ‘星辰变 第1季‘: ‘少年逆天改命成王‘, ‘超神学院之雄兵连‘: ‘世纪大战一触即发‘, ‘天行九歌‘: ‘超高颜值的权谋史诗‘, ‘刺客伍六七‘: ‘神秘美少女的遗愿清单‘, ‘万界仙踪‘: ‘少年掌门人 背负血海深仇‘, ‘全职法师 第3季‘: ‘法师集结，决战狂魔‘, ‘斗破苍穹 特别篇‘: ‘9月30日萧炎上线！‘, ‘动态漫画·驸马不要啊‘: ‘霸道公主驯服花花公子‘, ‘妖神记 第2季‘: ‘成为最强妖灵师‘}
标题： 斗罗大陆   描述：此生不悔入唐门
标题： 狐妖小红娘   描述：鞘笛不离 至死不渝
标题： 武动乾坤   描述：武之极，破苍穹，动乾坤
标题： 灵剑尊   描述：落魄少主闯荡大陆，天地三界，我为至尊！
标题： 雄兵连之诸天降临   描述：抗击外星入侵
标题： 万界神主   描述：陨落古神，遨游苍蓝
标题： 雪鹰领主   描述：超凡守护 热“雪”来袭
标题： 魔道祖师   描述：仙门少年为民除害斩邪祟
标题： 通灵妃   描述：年度鬼畜爱情大戏
标题： 画江湖之不良人 第3季   描述：王者弈天下 大唐生死局
标题： 猫妖的诱惑 正式版   描述：自古爱恨两难，当然是插他两刀
标题： 巨兵长城传 第1季   描述：一场关乎世界安危的冒险
标题： 狠西游 第2季   描述：18年12月 绝境重生！
标题： 地灵曲   描述：3D动画版鬼吹灯
标题： 斗破苍穹 第2季   描述：萧炎归来 风云再起
标题： 全职高手   描述：十年热血书写电竞辉煌
标题： 武庚纪 第2季   描述：商朝王子武庚逆袭记
标题： 妖神记之影妖篇   描述：聂离融合妖灵迅速成长
标题： 一人之下 第2季   描述：风起云涌罗天大醮
标题： 斗罗大陆2 绝世唐门 动态漫画   描述：唐三之后，斗罗大陆新星降临。
标题： 非人哉   描述：神仙妖怪的爆笑日常
标题： 星辰变 第1季   描述：少年逆天改命成王
标题： 超神学院之雄兵连   描述：世纪大战一触即发
标题： 天行九歌   描述：超高颜值的权谋史诗
标题： 刺客伍六七   描述：神秘美少女的遗愿清单
标题： 万界仙踪   描述：少年掌门人 背负血海深仇
标题： 全职法师 第3季   描述：法师集结，决战狂魔
标题： 斗破苍穹 特别篇   描述：9月30日萧炎上线！
标题： 动态漫画·驸马不要啊   描述：霸道公主驯服花花公子
标题： 妖神记 第2季   描述：成为最强妖灵师`

以上是关于Python爬虫爬取腾讯视频动漫专区的动漫及其描述的主要内容，如果未能解决你的问题，请参考以下文章

Python爬虫爬取腾讯视频动漫专区的动漫及其描述

闲来无事爬点动漫资讯看看

如何用Python爬取上述信息

之后就开始代码的编写了

结果，最后还可以通过动态请求继续获取的请求 ，这个下次再说

结果，最后还可以通过动态请求继续获取的请求，这个下次再说