豆瓣电影的探索性分析实现

Posted 摘一颗星星

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了豆瓣电影的探索性分析实现相关的知识,希望对你有一定的参考价值。

1、数据描述

  使用python软件对豆瓣电影数据集进行探索性分析

字段描述:

MOVIE_ID: 电影ID,对应豆瓣的DOUBAN_ID
NAME: 电影名称
ALIAS: 别名
ACTORS: 主演
COVER: 封面图片地址
DIRECTORS: 导演
GENRES: 类型
OFFICIAL_SITE: 地址
REGIONS: 制片国家/地区
LANGUAGES: 语言
RELEASE_DATE: 上映日期
MINS: 片长
IMDB_ID: IMDbID
DOUBAN_SCORE: 豆瓣评分
DOUBAN_VOTES: 豆瓣投票数
TAGS: 标签
STORYLINE: 电影描述
SLUG: 加密的url,可忽略
YEAR: 年份
ACTOR_IDS: 演员与PERSON_ID的对应关系,多个演员采用“|”符号分割,格式“演员A:ID|演员B:ID”;
DIRECTOR_IDS: 导演与PERSON_ID的对应关系,多个导演采用“|”符号分割,格式“导演A:ID|导演B:ID”;

2、问题描述

  1、电影的什么对评分影响最大?

  2、电影的评分、投票数和年份之间有什么关系?

3、数据清洗和预处理

3.1、导入相关数据和数据库

  导入豆瓣电影数据集

import pandas as pd
import dtale

data=pd.read_csv(r\'C:\\Users\\宋科\\Desktop\\python作业\\movies.csv\',encoding=\'utf-8\')
data

3.1、查找缺失值

  查看数据的缺失值

# 查找缺失值
pd.isnull(data).sum()

运行结果:

 

 

  发现指导教师具有缺失值,需对其进行去除缺失值

3.1.1、删除缺失值所在行

  删除缺失值

# 删除缺失值所在的行
data.dropna(inplace=True)
data.shape

运行结果:

 

 

3.2、去除重复值

  删除数据的重复值

# 对数据进行去重
import numpy as np
data=data.drop_duplicates()
data

运行结果:

 

 

4、各变量相关性数据分析与可视化

  下面我们借助tale工具,通过可视化的方法进一步了解获奖作品数据集

4.1、可视化

4.1.1、豆瓣评分的直方图

 

   从图中可以看出,豆瓣电影数据主要聚集在6.1至8.9评分之间,可以明确看出评分的数量与评分之间的关系

 

4.1.2、豆瓣投票数的直方图

 

   从图中可以看出,豆瓣电影的投票数大致数量区间在19656左右,可以明确看见投票数和数量之间的关系

4.1.3、豆瓣电影年份直方图

 

  从图中可以明显的看出,在1997年至2017年电影的数量比较多,可以和清楚的看见年份与电影数量的关系

4.2、相关性分析

  下面我们将使用散点图对DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性进行分析

4.2.1、DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)相关性

 

  从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)趋势先上升后又逐渐下降,可以看出大部分电影投票率最高处在9分作用。

4.2.2、DOUBAN_SCORE(豆瓣评分)和YEAR(年份)之间的相关性

 

 

   从该散点图中可以看出,DOUBAN_SCORE(豆瓣评分)和YEAR(年份)趋势不断上升后又逐步下降,可以推测出可能是有一部分烂片充斥者电影市场,导致评分有些下滑趋势。

4.2.3、DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)之间的相关性

 

  从该散点图中可以看出,DOUBAN_VOTES(豆瓣投票数)和YEAR(年份)趋势不断上升,说明用豆瓣的观众越来越多,后又评价较少,可能观众们在其他平台看电影,不满于只在豆瓣上看电影,可以看出豆瓣的竞争力越来越大。

4.3、图表

  下面我们借助下面我们借助tale工具,对豆瓣电影进行进一步探索性分析

4.3.1、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的小提图

 

 4.3.2、DOUBAN_SCORE(豆瓣评分)、DOUBAN_VOTES(豆瓣投票数)、片长和YEAR(年份)的热图

4.3.3、词云图

 

 

 

 

4.3.4、折线图

 

 

5、主要结论

1、从DOUBAN_SCORE(豆瓣评分)和DOUBAN_VOTES(豆瓣投票数)关系性图可以看出,大部分观众都趋向于到9分左右,说明电影还是能够达到大部分观众的肯定。

2、从DOUBAN_VOTES(豆瓣投票数)到YEAR(年份)关系性图可以看出,用豆瓣作为主要平台的人在变少,说明豆瓣拥有许多强大的竞争者。

3、观众大部分都在2000至2010年进行评分投票,可以看出电影在这个年份区间普及率较高

 

以上是关于豆瓣电影的探索性分析实现的主要内容,如果未能解决你的问题,请参考以下文章

团队-爬取豆瓣电影TOP250-需求分析

《团队-爬取豆瓣电影TOP250-需求分析》

团队-Python 爬取豆瓣电影top250-需求分析

Scrapy项目 - 数据简析 - 实现豆瓣 Top250 电影信息爬取的爬虫设计

python爬取豆瓣电影Top250(附完整源代码)

python爬取豆瓣电影图片并生成评分柱状图