快50亿了!用Python分析长津湖到底好看在哪里

Posted Python小二

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快50亿了!用Python分析长津湖到底好看在哪里相关的知识,希望对你有一定的参考价值。

来源:www.cnblogs.com/hahaa

十月份的黄金周,乃至整个十月份,妥妥的是《长津湖》的天下,才小半个月票房就已经突破44亿,都快追上战狼2了。猫眼评分9.5,口碑超高,2021年票房口碑双丰收大黑马!


今天我们通过爬取猫眼的电影评论,进行可视化分析,康康长津湖为什么这么受欢迎,最后教大家进行票房预测,千万不要错过!


数据获取

猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可。

这么几行代码,我们就可以得到如下结果


获取到数据后,我们就可以解析返回的 json 数据,并保存到本地了。

先写一个保存数据的函数

保存到本地的数据

可视化分析

我们来进行相关的可视化分析

1、数据清洗

首先我们根据 comment_id 来去除重复数据

df_new = df.drop_duplicates(['comment_id'])

对于评论内容,我们进行去除非中文的操作。

2、评论点赞及回复榜

来看看哪些评论是被点赞最多的

Output:

下面我们来看一下整体评论数据的情况

3、各城市排行

来看看哪些城市的评论最多呢


可以看到,这个评论城市的分布,也是与我国总体经济的发展情况相吻合的

4、性别分布

attr = [其他,男,女]

b = (Pie()
     .add(, [list(z) for z in zip(attr, df_new.groupby(gender).gender.count().values.tolist())])
     .set_global_opts(title_opts = opts.TitleOpts(title='性别分布'))
     .set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left=20%))
grid.render_notebook()

在填写了性别的数据当中,女性竟然多一些,这还是比较出乎意料的。

5、是否观看

大部分人都是在观看了之后才评论的,这要在一定程度上保证了评论和打分的可靠性。

6、评分分布

猫眼页面上是10分制,但是在接口当中是5分制。

9、用户等级分布

来看下猫眼评论用户的等级情况,虽然不知道这个等级有啥用

大家基本都是 level2,哈哈哈哈,普罗大众嘛!

10、主创提及次数

我们再来看看在评论中,各位主创被提及的次数情况.

毫无疑问,易烊千玺高居榜首,可能妈妈粉比较多吧,不过人家演技确实也在线.


明日票房预测

接下来画散点图,看下趋势情况。

可以看到,从一号开始,单日票房逐步增长,7号达到最高峰,8号开始回落。

下面我们来进行数据拟合,使用 sklearn 提供的 linear_model 来进行。

再根据拟合的结果,我们来预测下明天的票房情况。

以上是关于快50亿了!用Python分析长津湖到底好看在哪里的主要内容,如果未能解决你的问题,请参考以下文章

「长津湖」 为什么这么火爆?用Python分析了5w+影评

四个大点,搞懂 Redis 到底快在哪里?

实战!《长津湖》为什么这么火爆?我用 Python 来分析猫眼影评

《长津湖》《我和我的父辈》,Python国庆档影评分析

母亲节快到了,用python绘制一株简单好看的康乃馨叭

Python爬虫——刚学会爬虫,第一次实践就爬取了 《长津湖》影评数据