快50亿了!用Python分析长津湖到底好看在哪里
Posted Python小二
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了快50亿了!用Python分析长津湖到底好看在哪里相关的知识,希望对你有一定的参考价值。
来源:www.cnblogs.com/hahaa
十月份的黄金周,乃至整个十月份,妥妥的是《长津湖》的天下,才小半个月票房就已经突破44亿,都快追上战狼2了。猫眼评分9.5,口碑超高,2021年票房口碑双丰收大黑马!
今天我们通过爬取猫眼的电影评论,进行可视化分析,康康长津湖为什么这么受欢迎,最后教大家进行票房预测,千万不要错过!
数据获取
猫眼评论爬取,还是那么老一套,直接构造 API 接口信息即可。
这么几行代码,我们就可以得到如下结果
获取到数据后,我们就可以解析返回的 json 数据,并保存到本地了。
先写一个保存数据的函数
保存到本地的数据
可视化分析
我们来进行相关的可视化分析
1、数据清洗
首先我们根据 comment_id 来去除重复数据
df_new = df.drop_duplicates(['comment_id'])
对于评论内容,我们进行去除非中文的操作。
2、评论点赞及回复榜
来看看哪些评论是被点赞最多的
Output:
下面我们来看一下整体评论数据的情况
3、各城市排行
来看看哪些城市的评论最多呢
可以看到,这个评论城市的分布,也是与我国总体经济的发展情况相吻合的
4、性别分布
attr = [其他,男,女]
b = (Pie()
.add(, [list(z) for z in zip(attr, df_new.groupby(gender).gender.count().values.tolist())])
.set_global_opts(title_opts = opts.TitleOpts(title='性别分布'))
.set_series_opts(label_opts=opts.LabelOpts(is_show=True,position='right'))
)
grid = Grid(init_opts=opts.InitOpts(theme=ThemeType.VINTAGE))
grid.add(b, grid_opts=opts.GridOpts(pos_left=20%))
grid.render_notebook()
在填写了性别的数据当中,女性竟然多一些,这还是比较出乎意料的。
5、是否观看
大部分人都是在观看了之后才评论的,这要在一定程度上保证了评论和打分的可靠性。
6、评分分布
猫眼页面上是10分制,但是在接口当中是5分制。
9、用户等级分布
来看下猫眼评论用户的等级情况,虽然不知道这个等级有啥用
大家基本都是 level2,哈哈哈哈,普罗大众嘛!
10、主创提及次数
我们再来看看在评论中,各位主创被提及的次数情况.
毫无疑问,易烊千玺高居榜首,可能妈妈粉比较多吧,不过人家演技确实也在线.
明日票房预测
接下来画散点图,看下趋势情况。
可以看到,从一号开始,单日票房逐步增长,7号达到最高峰,8号开始回落。
下面我们来进行数据拟合,使用 sklearn 提供的 linear_model 来进行。
再根据拟合的结果,我们来预测下明天的票房情况。
以上是关于快50亿了!用Python分析长津湖到底好看在哪里的主要内容,如果未能解决你的问题,请参考以下文章