EDA(Experimental Data Analysis)之常见分析方法总结--以kaggle的泰坦尼克号之灾为例
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了EDA(Experimental Data Analysis)之常见分析方法总结--以kaggle的泰坦尼克号之灾为例相关的知识,希望对你有一定的参考价值。
先引入包,一般EDA需要引入如下包:
1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 import seaborn as sns 5 plt.style.use(‘fivethirtyeight‘) 6 import warnings 7 warnings.filterwarnings(‘ignore‘) 8 %matplotlib inline
2.读入数据,一般使用data = pd.read_csv(‘filepath/file.csv‘)读取
3.正式开始EDA
- 看看数据的格式:
data.head()
2.看看数据的各个字段有多少个为null的记录
data.isnull().sum()
3.看看生还/死亡的人数,各占比多少
1 f,ax=plt.subplots(1,2,figsize=(18,8)) 2 data[‘Survived‘].value_counts().plot.pie(explode=[0,0.1],autopct=‘%1.1f%%‘,ax=ax[0],shadow=True) 3 ax[0].set_title(‘Survived‘) 4 ax[0].set_ylabel(‘‘) 5 sns.countplot(‘Survived‘,data=data,ax=ax[1]) 6 ax[1].set_title(‘Survived‘) 7 plt.show()
以上是关于EDA(Experimental Data Analysis)之常见分析方法总结--以kaggle的泰坦尼克号之灾为例的主要内容,如果未能解决你的问题,请参考以下文章
如何从 pandas 创建与 tf.data.experimental.make_csv_dataset 相同的结构
什么是探索性数据分析EDA(Exploratory Data Analysis)?,探索性数据分析EDA(Exploratory Data Analysis)对机器学习有是意义?探索性数据分析EDA详
Detecting Unstable Periodic Orbits in Chaotic Experimental Data (解析)
R探索新数据分析(Exploratory Data Analysis,EDA)