我分析了《让子弹飞》的三十二万条弹幕 ... ...
Posted 壹言
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了我分析了《让子弹飞》的三十二万条弹幕 ... ...相关的知识,希望对你有一定的参考价值。
前言
为什么要分析《让子弹飞》的弹幕呢?
先来看两组数据,在豆瓣电影中《让子弹飞》的评分为 8.9 分,132,0000+ 人评价,豆瓣电影 Top250 中排名 59 。在B站上,这部的电影评分为 9.9 分,6,0000+ 人评价,3900,0000+ 播放量。
由于这部电影的某些桥段过于写实,所以弹幕区的内容总是紧跟实事,信息量十分大!还看到一些小伙伴”吵吵着”说自己的弹幕被”删“了。另外,我想看下到底有多弹幕没有被放到屏幕上呢?大家的弹幕又说了些什么呢?
不过想要分析数据,总得先拿到数据吧!这个应该不难,首先打开浏览器,输入 www.bilibili.com ,搜索 ”让子弹飞“, 点击播放。最后,使出”杀手锏“按下 F12 ... ... 一通操作后,看了眼时间,竟然晚上十二半点了,还是先睡觉吧!
躺在床上,闭上眼睛,仿佛一直有个声音(今日事,今日毕)在耳边回荡着
然后我又熟练的坐回了桌子前,熟练的打开了电脑,熟练的打开了 IDE,熟练的敲起了代码 ... ...
过了一会,”我啪的一下就抓到了,很快啊“,发现了一个关键接口。不过,在这里我得奉劝那些想要投身”采集业“的同学一句”这里的水很深,你把握不住“。
接着,为了提高程序的健壮性,继续完善代码的异常处理机制。同时为避免我的账号被B站的风控机制”关小黑屋“(我也不知道会不会关小黑屋,小心驶得万年船)。我又连夜注册了几个小号,连夜答题成为了能发弹幕正式会员,连夜在程序中用上了小号的凭证。
看着屏幕上一条条滚动的数据,我欣慰的笑了。如果我一直盯着看的话,那脑袋一定是坏掉了。经过再三检查,确认代码没有问题后,就把程序“丢”到了服务器上执行。
哟,一看时间不早了!明天起来再看“收成”吧,不对!是今天起来看。
正文
此次一共收集了从 18.03.22 到 21.05.02 之间的 32,5281 条弹幕数据,含有中文的弹幕有 29,4508 条。中文弹幕总字数为 222,3489 ,平均每条弹幕 7 个字。总字数大概比两本《水浒传》还多一些,或者换个说法是把所有的字按照五号字体大小一字排开能绕四百米标准运动场 20.5 圈。
18.03——21.04 弹幕数量趋势
看图说(hu)话(shuo)
电影刚在B站刚上映时,由于有较高的播放量同时也会有较多的弹幕。后来每月的弹幕数量走势一直没有太大起伏,直到20年的7,8月份,弹幕数量突然达到了每月4w+。那段时间发生了什么?
一天内弹幕数量趋势
看图说(hu)话(shuo)
这幅图表主要描述的是在一天24小时中,每个时间段内的弹幕数量趋势,同时也应该能大致体现出在一天当中每个时间段内观看这部电影人数的趋势。
看来熬夜看电影的同学,大有人在。不过大多数同学还是比较正常的,喜欢在晚上看电影。
影片每分钟弹幕趋势
看图说(hu)话(shuo)
在电影的第一分钟里,竟然有 1,1820 条弹幕。在整部影片中,弹幕趋势成“山”字,两头和中间高。我也看不出来其它的什么东西了!
分析完弹幕的数量趋势后,就可以分析弹幕内容了。例如,出现频率最高的弹幕,出现频率最高的弹幕在影片中的分布等。
但是在分析之前得先处理一下原始数据,比如这俩弹幕“人 民 万 岁!!!”和“人民万岁!”其实是一个意思,应该归到一类。如果不做处理,肯定会被程序分为两类,造成统计结果不准确。在这里,我把原始数据中的特殊符号全都去除,只剩中文字符后保存起来。所以,处理之后的这俩弹幕内容都会变成“人民万岁”。
弹幕 Top 30
看图说(hu)话(shuo)
出现次数最多的弹幕是“名场面”,等一下再分析到底是因为名场面的片段多,还是因为某个名场面的弹幕多呢?
大家应该也能够一眼看出来,在 Top 30 的榜单中“哈”字可谓是相当的多啊!Top 5中,“哈”占据四席位置;Top 10 中,“哈”字占据七席位置;Top 30 中,占据13席位置。由此可见这还是一部能够使人快乐的电影。
另外在倒数第二行,好像混进来了个奇怪的名字!
弹幕文字构成
看图说(hu)话(shuo)
由前一幅图,我们知道“哈”字在弹幕中的比重相当大。所以,我统计了一下“哈”字在弹幕总字数中的比重。“哈”字一共 23,0814 个, 占弹幕总字数的 10.38% 。也就是说每十个字,就会出现一个“哈”。
其实,过多的“哈”相关弹幕容易干扰我们的分析。为了显示出来更多有意义的弹幕,所以把与“哈”有关的弹幕全都排除后再统计一次 Top 30 的弹幕。
弹幕 Top 30(无“哈”)
看图说(hu)话(shuo)
这幅图中除了多出来了一些新弹幕,我也没看出来有什么特别的... ... 大家自己看下吧,我编不下去了!
在我大概翻了翻原始数据之后,发现其实上面的那幅图的数据也不太准确。比如有好些弹幕是繁体字;还有好多弹幕表达的是同一种意思但是无法统计到一起,例如“没有你对我很重要”和“没有你很重要”,后者应该归类到前者中,但是目前却没有统计到一起。
看了一些计算两句话文本相似度的论文后,感觉可能捣鼓半天也捣鼓不出来想要的东西,综合考虑还是自己找更简单的方法吧!对于繁体字的问题,我准备把所有中文文本都转成拼音然后以英文逗号分隔存储;对于计算文本相似度的问题,就以计算最长公共子串和最长公共子序列算法为基础进行改造后,再配合其它策略来计算两段拼音文本的相似度。
测试后发现效果还可以,例如有错别字的弹幕“人名萬歲”和同义弹幕“人们万岁”、“工人万岁”等都可以与“人民万岁”归为一类了。
弹幕 Top 30(修正后)
看图说(hu)话(shuo)
大部分弹幕还是有所增长的。其实,这次统计最多的是和“哈哈”有关的弹幕,一共 2,9902 条,由于太多就没让它参与排名。大家自己看下吧,我实在编不下去了!
“名场面” 相关弹幕分布
看图说(hu)话(shuo)
这幅图主要描述的是“名场面”相关弹幕在电影中出现时刻的位置分布。0:30 表示在电影的第30分钟。balabala ... ...
不分析了,不分析了,再分析就“累死”了!如果有需要数据想试试的同学,可以给邮箱 chang-xuan@qq.com 发邮件。
最后以一张词云图片结束吧!
历史文章
阅读更多有趣文章请关注微信公众号:Worldhello 或者长按下方二维码!
以上是关于我分析了《让子弹飞》的三十二万条弹幕 ... ...的主要内容,如果未能解决你的问题,请参考以下文章