数据分析 │ 基于聚类算法的电影票房分析
Posted 清华计算机学堂
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据分析 │ 基于聚类算法的电影票房分析相关的知识,希望对你有一定的参考价值。
本文所用数据是从猫眼电影网站上爬取了2015年1月1日至2016年3月10日的中国内地的票房数据。
由于猫眼电影的数据与国家新闻出版广电总局电影专资办数据偏差幅度非常小,所以以猫眼数据作为研究的对象得到的规律,可以反映中国电影票房真实的规律。同时为了分析每类电影的特征,从豆瓣网上爬取了用户对每部电影的评分和评分用户数。从中国票房网上爬取了每部电影的出品国、类型等电影的基本信息。由于低票房和上映天数少的电影研究价值低,且模式杂乱,所以从2015年1月1日至2017年3月10日在中国上映的电影中筛选了152部影片。这些电影上映时间都为周五,上映天数超过22天,其时间分布特征如图5.8所示。图中每一条曲线代表了一部电影22天的票房时间分布特征(变化过程),由于各种因素的影响,电影的票房时间分布虽然有迹可循,但存在不同的模式。
■ 图5.8 152部电影票房时间分布特征可视化图
01
基于SSC的日票序列聚类效果及分析
下面使用聚类算法中经典的k-means和谱聚类,对152部电影票房数据进行聚类。在实验分析中,为了便于和SSC算法对比,将k-means和谱聚类算法中的类个数这一参数都定为4。将k-means和基于DTW距离的k-means的最大迭代次数定为1000。谱聚类中选用规范Laplacian矩阵。实验结果如图5.9所示。
■ 图5.19 连续特征与票房关系散点图
通过图5.9可以发现,无论是k-means还是谱聚类算法对含有时间信息的票房数据的聚类结果可解释较差。k-means聚类的结果更多是和总的票房收入有关,将票房高的聚为一类,票房低的聚成一类。谱聚类算法将大多数电影聚成了一类,无法获得具有解释性的聚类效果和提取出有意义的票房时间分布特征模式。从可视化角度看出,基于DTW距离的k-means算法将部分相似走势的数据聚成了一类,尤其类4可以看出该类中的序列走势很有规律。然而其他几类中的规律并不是很明显。所以将使用SSC对日票序列进行聚类分析,并且分析这些潜在时间分布特征规律以及这类电影的特点。
为了达到最好的聚类效果,需要对稀疏子空间聚类的参数进行优化,首先对参数做了规定:选择outlier为true,程序将会去掉离群点;选择affine为false,程序不对数据进行放射变换。
对上述电影票房数据进行聚类分析,将这些数据聚为4类,其结果如图5.10~图5.13所示,为4类电影票房变化模式。图5.10为每类电影每天的票房的平均值的时间分布规律,可以用来展示每类的票房时间分布特征规律。图5.10中的每一条曲线代表了一部电影的22天的票房变化情况,由图5.10可以看出,通过稀疏子空间聚类后得到的第一类的数据具有如下特点:票房时间分布特征有明显的周期性,每周周六票房达到当周的最大值,且每周峰值呈现逐渐下降的趋势,同时值得关注的是这类影片在第二周、第三周的周末依然有很好的票房成绩。
■ 图5.10 聚类结果类1图
由图5.11可以看出, 通过稀疏子空间聚类后得到的第二类的数据具有如下特点:前两周表现较好, 第三周表现平平, 生命周期相对于第一类较短。
■ 图5.11 聚类结果类2图
由图5.12可以看出,通过稀疏子空间聚类后得到的第三类的数据具有如下特点:票房序列没有明显的周期性,而是呈现下降的趋势:第一天有较高的票房,之后不断下降,在上映后的第二、第三周内票房远远低于第一周。
■ 图5.12 聚类结果类3图
由图5.13可以看出,通过稀疏子空间聚类后得到的第三类的数据具有如下特点:这类影片的票房序列没有明显的周期性,而且票房的时间分布特征和前几类有着显著的差异,但是这类电影具有更长的生命周期,后几周票房表现良好。
■ 图5.13 聚类结果类4图
图5.14为每类电影每天的票房的平均值的时间分布特征,可以用来展示每类的票房时间分布特征的模式。可以发现:第一类票房有很好的周期性,每到周末票房达到当周的最高值;第二类相比于第一类生命周期短,第三周票房已经变得很低;第三类票房一直呈现下降趋势;第四类票房在整个上映的22天内,票房都表现良好,平均票房较高。
■ 图5.14 聚类结果每类均值时间分布特征图
综上所述,基于稀疏子空间聚类算法的票房序列聚类效果及其特点如表5.4所示。
表5.4 聚类结果描述表
如上为稀疏子空间聚类效果,通过该算法可以从众多复杂的票房时间序列中间提取出4类具有差异性的票房时间分布特征模式,接下来将对每类模式的电影特点进行分析,探究票房时间分布特征和电影特征之间的关系,具体选取了这些电影以下几个特征:电影类型、制作地区、影片档期、网络口碑和网络关注度以及总票房成绩。
(1)电影类型:图5.15反映了这4类电影中不同类型片的占比,可以看出:第一类电影明显偏向于奇幻和喜剧;第三类电影偏向于动作和爱情。
■ 图5.15 4类影片电影类型占比雷达图
(2)制作地区:表5.5中为这4类影片的出品国占比,可以看出相对于其他几类影片,第三类影片中国产片占比明显,第一、第二类进口电影占比明显较大。
表5.5 4类影片电影制作地区占比表 %
(3)影片档期:将节假日分成贺岁档、暑期档、其他这3种情况。表5.6中为这4类影片的档期占比,可以看出相对于其他几类影片,第二类影片更多在非热门档期上映。
表5.6 4类影片电影档期占比表 %
(4)网络口碑:随着影评网站、社交网站和购票网站不断推出电影评分功能,使得电影在路演和点映阶段就能得到大量观众的反馈。电影在互联网上的口碑一定程度上反映了电影竞争力和受欢迎程度。为了尽量全面,主要考虑了3个最为常用的评分平台:豆瓣、时光网、微博电影,同时使用这3个评分的均值作为最后网络口碑特征。具体如下式所示
(5)网络关注度:影评网站上“看过”“想看”“短评”的数量代表着观众对电影的关注程度。在以往研究的基础上,将影片在影评网站的关注数设定为网络关注度的考量指标。影片在豆瓣网、时光网、微博电影上的关注用户数之和作为每部电影的网络关注度
其中,Critics_attentioni表示第i个影评网站的关注数量,此处n取为3。
表5.7为这4类影片网络口碑和关注度的均值,相对于其他几类影片,第三类影片网络评分最低,一定程度上解释了其票房时间分布特征不断下降这一现象。同时第四类的网络关注度、票房及评分最高,也从一定程度解释了其每日票房一直保持较高这一现象。
表5.7 4类影片网络口碑及关注度表
下面的部分主要结合聚类结果和电影的基本数据对每个类进行分析,探究聚类结果和影片特征之间的关系。
第一类:该类电影的典型代表为:《蚁人》《飓风营救3》。这类电影主要以进口片为主,国产片占比只有21.43%。并且这类影片在网络口碑也有较好的评分。比较有趣的是这类影片在网络关注度上却没有太大的优势。该类影片中奇幻和喜剧的电影占比比较大。
第二类:这类电影的典型代表为:《圆梦巨人》《28岁未成年》。这类电影中进口影片占了很大比重,并且它们更多的选择在非热门档期上映。这类影片的网络关注度相比于其他类影片较低,其票房也表现一般。
第三类:该类电影的典型代表为:《恶棍天使》《道士下山》《封神传奇》。这类电影主要以豆瓣评分不高的国产片为主,欧美进口片只占15.55%。这类影片在豆瓣评分上是这四类中最低的,只有5.32。这类电影的网络关注度和票房也都较低。这类主要代表了上映前观众有较大的期待,多为互联网上热门IP,或者有较强的明星阵容,但是之后的口碑影响了其票房。
第四类:该类电影的典型代表为《战狼》《老炮儿》。该类主要为口碑和票房都不错的较好的国产片,占比59.38%。这类影片在网络口碑是这四类中最好的,网络关注度也是最多的。同时,这类影片的票房也表现优异,从票房时间分布特征上也可看到票房峰值并不出现在首映日,且第二周依旧有较强的竞争优势,可见口碑助推了其后期发力。
02
参考书籍
《电影产业数据挖掘》
ISBN:978-7-302-54801-0
王妍、柴剑平 编著
定价:59元
扫码,微店购买
以上是关于数据分析 │ 基于聚类算法的电影票房分析的主要内容,如果未能解决你的问题,请参考以下文章
用Python分析徐峥的数十万数据!这才是药神30亿票房的真正秘诀?