大数据挖掘热剧口碑哪家强?文本挖掘来帮忙!

Posted 毕马威KPMG

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据挖掘热剧口碑哪家强?文本挖掘来帮忙!相关的知识,希望对你有一定的参考价值。

编辑推荐

看到这个题目,你可能想说:哪部电视剧好看,难道我自己心里还不清楚吗?可是,话虽如此,你想知道其他观众的想法吗?你想知道大家从古装剧里发现的有趣的梗、或者念念不忘的槽点吗?更重要的是——想看看非常酷炫的词云图吗?本期作品带你一起看~                              


大家可能还记得,不久前网上曝出:携《甄嬛传》原班创作人马的古装剧续集《如懿传》还未开始拍摄,就已经靠着两家卫视和乐视购买狂赚13亿,可谓吸足眼球,也让影视界工作者普遍羡慕嫉妒恨。固然乐视自产自买、开出什么天价都不奇怪,但这也确实反映出了近年来古装电视剧的热闹劲。毕竟,这些古装剧往往带着一大波原著小说的粉丝,又容易服饰精美、情节传奇,自然大受欢迎。


不过,话题性强的电视剧不等于口碑好,对于这些古装剧,大家往往有赞美、有吐槽;它们在大家心中的地位到底如何呢?这次,我们选择了四部已经在网络和全国各家卫视热播过的古装剧:《甄嬛传》《武媚娘传奇》《芈月传》《琅琊榜》,对它们在豆瓣网上的评分和短评进行分析,看看这四部剧的口碑究竟怎么样?


A. 总览观众评分

【大数据挖掘】热剧口碑哪家强?文本挖掘来帮忙!

豆瓣网是当下较为权威的影视评论网站,其影视评分采用5星制,从5到1星别可以理解为力荐、推荐、还行、较差和很差。如上图所示,从网友打分的情况来看,《甄嬛传》和《琅琊榜》受到广大网友的力荐,而《武媚娘》以及《羋月传》的网友评价不是很理想,差评的比例很高。


B. 分析豆瓣短评热度

除了5星制的评分体系之外,豆瓣网的“短评”功能鼓励观众用简洁的语言表达感想,如果说出了大家的心声还可以登上热门,也是个相当有人气的设置。我们将豆瓣上对这四部电视剧的短评爬虫下来。目前有很多的成熟的爬虫技术,下面这张图就是爬虫后的文本数据部分样本,采集日期为20161月中旬。

【大数据挖掘】热剧口碑哪家强?文本挖掘来帮忙!

甄嬛传影评原始数据

甄嬛传》

【大数据挖掘】热剧口碑哪家强?文本挖掘来帮忙!

上面的热力图显示,《甄嬛传》自201111月大陆地区上映以来,网友做出评价的日期范围主要集中在20124月到20125月之间;201253日,该片的大结局最终播放,而一天之后,网友的评论达到了200条的峰值。可以看出,《甄嬛传》尽管节奏略慢,但剧情环环相扣、渐入高潮,观众有追剧的动力,不大容易中途弃剧,结尾也让大家比较满意。当然,随着首播结束,评论的热度逐渐降低,但是对《甄嬛传》的评论没有就此终止,在随后的月份中依然有不少评价,这说明各电视台重播次数多、网络观看次数也多。一部能够让老观众反复观看、又能持续吸引新观众的电视剧,往往有独特的优势,怪不得《甄嬛传》口碑如此之好。


《武媚娘传奇》:

【大数据挖掘】热剧口碑哪家强?文本挖掘来帮忙!

《武媚娘传奇》作为一部新的历史题材的古装剧,在播出之初、即201412月到20151月间受到了广泛的评论关注,在全国播出期间遇到过停播的一些风波。20150203日,《武媚娘传奇》播出了大结局,评论数达到了顶峰,接近500的评论数量,——需要注意的是,豆瓣上的整体短评数量是逐年增加的,这无法说明武媚娘的人气超过了甄嬛传。而且,评价的总体热度衰减比较迅速,20153月以后基本上就很少有对该剧的评价了。看来,与《甄嬛传》相比,《武媚娘传奇》只能成为一时热点,却称不上观众持久喜爱的古装剧。


羋月传》:

【大数据挖掘】热剧口碑哪家强?文本挖掘来帮忙!

由于《甄嬛传》的热播,《羋月传》在播出之前很受期待,因此一开始的评论数据就相当好看,不由得让我们想起当时铺天盖地的广告和众人翘首的盛况。然而,在起初的热闹之后,《芈月传》的表现可谓后续乏力,纵有强大班底和潜在观众群,却没有体现相应的热度,记得后来周围的小伙伴们也没兴趣讨论情节了。201619日晚,《羋月传》迎来了大结局,于是20160110日时,评论数量也达到了峰值,接近400条评论,——但这个数据与同期的《琅琊榜》相比就不够看了。结局好才是一切好,有人说,芈月传虽然收入不错,但赚的都是《甄嬛传》的钱。所以说,班底和宣传固然要紧,但能够引人入胜的情节和富有感染力的人物形象才是电视剧成功之本,否则再好的前期营销也只能虎头蛇尾了。


《琅琊榜》:


《琅琊榜》自201509月在全国播出以来就颇受好评,20151015日播出大结局后,16日有1000多评论数,是同时期播出的《羋月传》峰值评论数的2.5倍。直到201511月份,《琅琊榜》的评论也有许多评论数大于200的天数,可见至少直到2015年底,它仍然颇受欢迎。我记得身边喜欢这部剧的人的确不在少数,但最终能否超越《甄嬛传》的口碑,我们还需拭目以待。


C. 网友短评词云展示

还记得我们本期酷炫的封面图吗?来来来,下面为大家展示本文的精华部分:网友短评的词云展示,主要是根据网友对电视剧的评论,通过分词后挑选出来的网友对该剧的评价情况以及主要吐槽评论的热点。


《甄嬛传》:

这一张娘娘是不是也很棒呢?细看一下,《甄嬛传》的总体评价还是好评为主,评论主要提及的词语包括剧中的台词“极好”“小主”等,这些台词后来也影响了流行语文化;剧中的主演“孙俪”、剧中人物“甄嬛”以及该剧主题“宫斗”同样占据重要地位当然还包括该剧的评价“好看”、“四星半”“演技”“经典之作”等。等等,我好像还看到了什么奇怪的东西:“红楼梦”?好吧,这位做出评价的同学,尽管《甄嬛传》是蛮好看的,但与《红楼梦》相提并论还是太夸张了吧。


《武媚娘传奇》:

相比《甄嬛传》,《武媚娘传奇》引发的网友吐槽居多,如本剧暂时停播后观众对主演的昵称“武大头”,以及对该剧的评价“虎头蛇尾”“玛丽苏”“脑残剧”等。除此之外,大家有没有觉得图中少了某个关键词呢?没错,为了世界的和谐,那个重要的、被勒令剪辑的词语,我们也干脆剪辑掉了……呵呵。


《芈月传》:

显然,《羋月传》吐槽的重点是孙俪以及一些对该剧的评价,比如失望、差、烂、拖沓、弃等,可以看出,观众当初的确曾对该剧期望颇高,然而《芈月传》的表现却不尽如人意,大概只有演员的“演技”还算是值得一提的亮点吧。


《琅琊榜》:

看来大家对《琅琊榜》的态度就友好多了:评价大多是“好看”、“良心剧”、“五星”、“精良”等。不过,对于这部剧不黑不粉的我回过头去看看这四张词云图时,倒是忽然发现,除了《琅琊榜》之外,前面三部剧中(包括《甄嬛传》)竟都出现了这样一句话:


“终于看完了”!


这简直是大家的心声啊。现在的电视剧真是越拍越长,《甄嬛传》76集,《芈月传》81集,《武媚娘传奇》96集……相比之下54集的《琅琊榜》在长度方面简直是一股清流。说实话,电视剧不长就赚不到钱是客观事实,但电视剧越长就难度越大也是毫无疑问,一部将近百集的电视剧,一定需要相当强大的编剧才能让观众看得下去。想想虽说精彩却略有拖沓之嫌的《甄嬛传》,彻底虎头蛇尾的《芈月传》和《武媚娘》,观众们自然要感叹一声:“终于看完了!”


好了,不知道本文有没有说出你对这几部古装剧的心声呢?当然啦,我们的目的并不是吐槽电视剧,而是向大家展示如何利用影视评论的文本数据进行挖掘和可视化展现,希望对大家有所启发。而更重要的是,大数据并不是枯燥乏味的,其实生活中存在着许多有趣的数据,如果你有好的想法对他们进行分析处理,就能做出漂亮的结果。不过,文章无论多炫酷,终有结束时,现在大家可以拿着本文去对小伙伴们说:“快来看,你对古装剧的吐槽戳到点了吗?”



关于本文


阅读本文后大家可以直接在文末留言与我们分享您的想法。





新浪微博: 毕马威中国-KPMG

官网: kpmg.com/cn



以上是关于大数据挖掘热剧口碑哪家强?文本挖掘来帮忙!的主要内容,如果未能解决你的问题,请参考以下文章

地下挖掘哪家强?机器小“獾”来帮忙

AI 世界里,挖掘机「生产」哪家强?

数据挖掘哪家最强?

技术选型 - OLAP大数据技术哪家强?

大数据培训班哪里好?

#51CTO学院四周年# 学IT技术哪家强