想看电影的票房和大家对其评分的关系。是否是评分越高的电影票房也越好。
先用爬虫抓取了豆瓣上排名前250的片子。
程序是根据《Python网络爬虫从入门到实践(唐松)》修改的。
豆瓣上没有票房,但是有评分人数量,于是姑且把评分人数当做票房看它和评分的相关性。
评分和人数都用最大最小值做了标准化。
结论是:无相关性(r=0.306896,p=0.759),对于得分相同的片子,其观看人数的变化是很大的。
再去IMBD上爬取豆瓣前250的片子在IMBD上的排名。
电脑速度太慢,中途Spyder总是死掉。于是手动抓了不少。
整体而言,豆瓣的评分(平均分8.83)都比IMBD(8.05)上要高一点。但是这两个网站上的评分也无相关性(r=0.5587,p=0.577)。
同样,在豆瓣上评分相同的片子到了IMBD上结果就会千差万别。
IMBD上评分和票房的关系
由于豆瓣上的前250名的片子很多都是国产的,于是就手动从豆瓣前200的片子中把国产的以及日韩等非美国片剔除掉,并且去除了1990年之前的片子,然后总共选取了120部片子(几乎都是美国片),然后跟这些片子的全美票房(Gross USA)进行了比较。结果如下,并没有显示出评分越高票房越好的特点。
考虑到物价上涨的因素,想看看剔除掉年份的要素之后会不会好一点,于是用年份(year)和评分(ranking)做自变量做了一个回归,看它们对票房的影响。
结果是这两个自变量的P值都不显著(尤其是年份),评分对于票房会稍微有一点影响,但没有明显的相关