数据探索

Posted jing-yan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数据探索相关的知识,希望对你有一定的参考价值。

一.查看特征数据类型,有没有文本型变量需要处理

train_data.info()

 

 

 

train_data.describe(include="all",percentiles=[0.5]).T.round(2)

 

 

 

 

二.查看缺失值数量或占比

 

三.查看标签分布

# 查看标签分布
df[label].value_counts()

# 查看标签占比是否比例,是否均衡
len(train_data[train_data[SeriousDlqin2yrs]==1])/len(train_data[train_data[SeriousDlqin2yrs]==0])

四.可视化

1.单变量作图

#直方图
train_data[age].plot.hist(bins=30)
#当直接昨天不好看不均衡时
income= train_data[MonthlyIncome]
income.loc[income<23343].plot.hist(bins=50);

2.多变量探索(x间的相关性)

  一般相关系数<0.8不会考虑删除,相关系数>0.9,考虑删除或者降维

# 多变量探索 默认pearson相关系数
plt.figure(figsize=(10,8))
sns.heatmap(train_data.corr(),annot=True,linewidths=1)

 五.去重

  数据预处理前先去重

# 去重
train_data.drop_duplicates(inplace=True)
train_data.shape

 

以上是关于数据探索的主要内容,如果未能解决你的问题,请参考以下文章

如何利用常见的文本挖掘方法去探索分子数据集?

你知道的Go切片扩容机制可能是错的

将vscode打造成无敌的IDE初步探索vscode,解放生产力

超级有用的9个PHP代码片段

数据分析可视化利器:python pandas-profiling 一行代码EDA 探索性数据分析

当返回到“导航架构组件”中的同一选项卡时,嵌套片段的状态会丢失