《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评中评差评数据，看它真有那么差吗

Posted 2021-12-21 松鼠爱吃饼干

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评中评差评数据，看它真有那么差吗相关的知识，希望对你有一定的参考价值。

前言

上次爬了《双城之战》的视频弹幕，效果很不理想，这次的目标是豆瓣的评论数据

分别把好评、一般和差评都一起爬下来

主页左侧可以免费领取【代码】【相关教程、资料】，或者对于本篇文章有疑问的同学可以私信我

知识点

爬虫基本流程
requests
制作词云
jieba
imageio
wordcloud

环境

Python 3.8
pycharm 2021.2

代码实现部分

发送请求
解析数据
保存数据
制作词云图

评论爬虫代码

导入模块

import requests
import parsel

请求数据

先打开开发者工具找到数据

url = f'https://movie.douban.com/subject/34867871/comments?start=20&limit=20&status=P&sort=new_score'
headers = 
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/96.0.4664.45 Safari/537.36'

response = requests.get(url=url, headers=headers)

解析数据

select = parsel.Selector(response.text)
content_list = select.css('.short::text').getall()

翻页

找到不同页数的规律，用for page进行翻页

for page in range(0, 220, 20):
    url = f'https://movie.douban.com/subject/34867871/comments?start=page&limit=20&status=P&sort=new_score'

保存数据

for index in content_list:
    with open('双城之战.txt', mode='a', encoding='utf-8') as f:
        f.write(index)
        f.write('\\n')
    print(index)

实现效果

词云代码

导入模块

import jieba
import wordcloud
import imageio

导入imageio库中的imread函数，并用这个函数读取本地图片，作为词云形状图片

py = imageio.imread(r"C:\\Users\\Administrator\\Desktop\\123.png")

读取文件内容

f = open(r'C:\\Users\\Administrator\\Desktop\\双城之战.txt', encoding='utf-8')
txt = f.read()

jiabe 分词分割词汇

txt_list = jieba.lcut(txt)
string = ' '.join(txt_list)

词云图设置

wc = wordcloud.WordCloud(
        width=1000,         # 图片的宽
        height=700,         # 图片的高
        background_color='white',   # 图片背景颜色
        font_path='STKAITI.TTF',    # 词云字体
        mask=py,     # 所使用的词云图片
        scale=5,
)

给词云输入文字

wc.generate(string)

词云图保存图片地址

wc.to_file(r'C:\\Users\\Administrator\\Desktop\\out.png')

全部评论词云图

好评词云图

一般词云图

差评词云图

以上是关于《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评中评差评数据，看它真有那么差吗的主要内容，如果未能解决你的问题，请参考以下文章

爬虫日记1——百度口碑医学教育网

求《雾都孤儿》英文见解、评论等，尽量发表，好了加分

实训项目：基于TextCNN汽车行业评论文本的情感分析

详尽分析世纪之战：360VS腾讯是两个阶层的抗争

用Python分分钟爬取豆瓣本周口碑榜，就是有这么秀！

直播升级之战！金山云喊麦邀你参加直播问答，舅服你

《双城之战》口碑爆炸，却有评论说它不如国漫？Python采集好评中评差评数据，看它真有那么差吗

前言

主页左侧可以免费领取【代码】【相关教程、资料】，或者对于本篇文章有疑问的同学可以私信我

知识点

环境

代码实现部分

评论爬虫代码

导入模块

请求数据

解析数据

翻页

保存数据

实现效果

词云代码

导入模块

导入imageio库中的imread函数，并用这个函数读取本地图片，作为词云形状图片

读取文件内容

jiabe 分词 分割词汇

词云图设置

给词云输入文字

词云图保存图片地址

全部评论词云图

好评词云图

一般词云图

差评词云图

jiabe 分词分割词汇