流媒体平台影视数据分析(数据预处理与可视化)

Posted Babyface Killer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了流媒体平台影视数据分析(数据预处理与可视化)相关的知识,希望对你有一定的参考价值。

背景介绍

相信大家在选择订阅流媒体平台时一定都会有一个疑问🤔️ :到底选择订阅哪一个平台可以观看到更多质量更高的影片呢?又或者我偏爱某一类型的电影我该选择哪一家流媒体平台订阅呢?

为了解决这个问题,我选取了一个包含近100年发行的超过一万部影片的相关信息及Netflix,Hulu,Prime Video,Disney+四家流媒体平台的放映信息的数据包。

                                                                                                                         

 

作为一个电影爱好者解决了首要问题之后我当然还会进行一些发散性数据分析:比如哪个国家制作了最多高分电影?哪个类型的电影平均得分最高?哪一年发行了最多影片?

看到这里如果有同为电影爱好者的读者可以先猜想一下答案

 

下面是该数据包中包含的字段以及对各字段的解释:

ID:每部影片独特的ID

Title:每部影片的标题

Year:影片发行年份

Age:年龄限制,如7+,13+等

IMDb:IMDb(互联网电影数据库)得分

Rotten Tomatoes:烂番茄得分

Netflix:是否在Netflix放映

Hulu:是否在Hulu放映

Prime Video:是否在Prime Video放映

Disney+:是否在Disney+放映

Type:影视剧或电影(0为电影,1为影视剧)

Genres:影片类型

Country:在哪个国家制作

Language:语言类型

Runtime:总时长

 

数据预处理

通过观察原始数据集的排列我发现Unnamed:0这一列没有提供任何有用信息可以直接删除。

按照惯例拿到数据集先查看数据类型。

通过上一步我发现Age和Rotten Tomatoes(Rotten Tomatoes也称烂番茄是一个非常受欢迎的影评网站)这两列的数据类型不符合尝试,需要分析一下是否需要对这两列的数据类型进行调整。

转换完数据类型之后就可以继续观察数据中是否有缺失值。

该数据集中Age列和Rotten Tomatoes列缺失值较多,其他列缺失值相对于整体数据量来说占比较小。对Age列和Rotten Tomatoes列的缺失值我决定采取不同的处理方法,因为直接删除缺失值会使数据集丧失很大一部分数据,显然不是最合理的方法。Rotten Tomatoes这一列是每部影片的得分,因为缺失数量较多(约占整体数据量的70%)如果直接用平均值填充对于分析来说意义不大所以选择直接删除该列只使用IMDb得分作为评价影片好坏的唯一标准。Age列包含的是影片的年龄限制等级,缺失该信息的默认为适合所有年龄段观看,直接用(‘all’)填充。

对于缺失值较少的IMDb列直接用平均值填充缺失值,由于Directors,Genres等字段缺失值较少且对分析的作用有限所以选择直接删除缺失值。

进行完这一步后,数据集中已经没有缺失值了。这时我又注意到一个问题,Type这一列是影片为电影还是影视剧的信息,而该数据集是一个只包含电影信息的数据集,所以这一列应该所有值都为0。

继续查看数据集,问题又出现了:Directors,Genres,Country,Language这四列中都包含不止一个信息,这也很合理,一部电影可能会有多个导演,属于多个种类。为了简化问题,我只保留了第一个值。

数据分析

现在所有的数据都处理完成,要进入分析步骤了。

既然我们要追求订阅流媒体平台的性价比,当然第一步要考虑的是平台放映的影片量了。

这一查可不得了,原来亚马逊的Prime Video放映影片的数量竟然比其他几家高出这么多,这么说订阅Prime Video就是最好的选择?

且慢,光有数量可不行,我们还得看一看质量。

我们先来看一看IMDb评分的平均分为多少,为我们判定影片的质量设定一个基准。

平均分大约为6分,那我们就设定7分以上为高分电影(本来想设为8分,但这个标准好像有点苛刻了,毕竟大家在流媒体平台观看电影还是娱乐的属性多一点)。

通过这个饼图,我们可以发现虽然高分电影的标准只设置为7分以上,但高分电影的占比还是很少的,这说明我们的电影行业还需要继续努力提升整体的行业标准。

看完了整体的水平,我们再来看看各家平台中高分电影的占比。

可以看到各家平台高分电影的占比差不多,这说明平台在选择放映影片的范围时评分不是唯一的标准,这也很合理,因为影片的质量并不是由得分这一单一结果体现的。

其中Prime Video在高分影片占比上虽然为四家最低,但其家底殷实(影片数量多),所以这并不影响它的竞争力。

看完了影片质量,我突发奇想,想来点刺激的东西。

既然会考虑订阅流媒体平台这个问题,做决定的一般都是成年人,而且是年轻人。作为年轻人,我们都喜欢看点刺激的东西,毕竟每天上班上学压力那么大,回到家里是要释放一下压力。在这方面,年龄限制为18+的影片应该会特别吸引我们的注意力。

这个结果非常有趣, Netflix和Prime Video中规中矩,这也很符合他们在大众眼中的定位。而Hulu的18+电影竟然达到了33%,不愧是流媒体平台竞争力最强的后起之秀,可能也是因为这样的特性,Hulu吸引了很多年轻人从而实现了快速增长。Disney+平台的结果也非常“迪士尼”,影片库中竟然完全没有18+影片。这也可能是因为Disney+平台专攻低龄化市场而其他市场的竞争则由迪士尼公司投资或收购的其他平台完成,所以家里有小朋友的订阅Disney+平台就非常适合。

 

接着我们再来看看各个平台对各种类型的电影的收容量怎么样,我选取了我认为受众最广的四类电影(喜剧片,恐怖片,动作片,动画片)来分析。

得到这个结果后,如果有对某个类型特别钟爱的朋友应该大概知道自己想要订阅哪个平台了吧。如果特别喜好动画片的朋友直接选择Disney+肯定没错,但是如果喜欢恐怖片的话,Disney+就不太理想了,Prime Video对你来说可能是个很好的选择。

 

说完了订阅流媒体平台这个事,我还有点意犹未尽,这么好的数据集我得看看还能不能再发现点什么。

不如就先看看拍了最多高分电影的是哪几年。

数据全部集中在2009年之后,说明近几年我们制作出来了大量的高质量电影,这对整个电影行业也是一件好事。随着越来越多的电影开始使用更加先进的拍摄技术和剪辑技术,这些因素可能确实会提高一部电影的观感从而得到更高的评分,但是我相信能得到高分电影有的不只是花里胡哨的特技,一部优质电影一定是形式和内容兼顾的。

 

下面我们再来看看哪个类型拥有最多的高分电影。

结果是喜剧片得到的高分最多,其次是动作片,然后是动画片,最后是恐怖片。这也从侧面反映了想要拍出一部高质量的恐怖片并没有想象中简单。喜剧片得到了最多的高分其实并不让人意外,首先因为电影本身就是一种娱乐形式当然是让人放松为主,而且大部分影片都包含有喜剧成分。由这个结果我大胆猜测一下:如果我去拍一部喜剧动画片是不是会得到高分的概率大一点呢?😊 😊 😊

 

这时我又想到了一个问题,从我自身的体验来看,我发现近几年上映的电影时长越来越长,而之前上映的电影好像时长并没有那么长,我想证实一下这个趋势是不是真的。

看来我的感觉没错,虽然电影的平均时长并没有太大变化,但从2000年之后电影时长的上限就突然增加。

 

最后,虽然艺术不分国界,但是各个国家电影产业的发展其实差别还是非常显著的。中国电影近几年也制作出了不少佳作,那么制作出最多高分电影的是哪几个国家呢?

从结果来看,美国制作出了大部分的高分电影,其次是印度和英国。中国暂时没有跻身前五的行列,这其中可能会有文化差异的原因,但是我们也必须承认中国的电影行业确实良莠不齐。希望中国的电影行业能专注于提高自身标准,早日制作出更多优秀的作品。

 

写在最后的话

希望各位可以对本篇提出宝贵意见

转载请注明出处

 

 

 

以上是关于流媒体平台影视数据分析(数据预处理与可视化)的主要内容,如果未能解决你的问题,请参考以下文章

爬取哔哩哔哩影视榜单

python网格搜索支持向量回归得分低,为0.003,偶尔还会出现负数,该怎么处理?

《沉默的真 相》的舆情分析及文本挖掘——以微博爱奇艺弹幕bilibili为例

精品大数据文本挖掘在广播电视中的应用与探索

NJD798案例精选 | 数据可视化的案例剖析(下)

魔镜—58可视化数据智能平台架构与实践