风控模型之探索性数据分析
Posted iihcy
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了风控模型之探索性数据分析相关的知识,希望对你有一定的参考价值。
*探索性数据分析:用于初步检验数据的质量,需计算各类数据特征指标。
本文框架:
- 探索数据分布(Exploratory Data Distribution,EDD)
- 缺失率(Missing Rate)
- 重复值(Duplicate Value)
- 单一值(Unique Value)
- 其他数据质量检查(Quality Check)
好了,简单开始吧!若存在不足之处,还请指正说明,谢谢!
1.探索数据分布
1)功能:统计变量的数据分布;
2)指标:
- 对于连续型变量,包括:数量(count)、均值(mean)、标准差(std)、最小值(min)、分位数P25、P50、P75、最大值(max),其中最大值和最小值可用来观察异常值(outlier);
- 对于离散型变量,包括:取值及出现次数(cnt)、占比(ratio)。
2. 缺失率
1)功能:统计变量的缺失率;
2)指标:缺失率 = 未覆盖样本数 / 总样本数 × 100%;
3)业务理解:用于分析数据源的缺失率,以及未来的采集率趋势;如果缺失率持续升高,我们就认为这块数据不可用。
3. 重复值
1)功能:检验建模样本中是否有重复数据;
2)指标:按样本ID分组后,统计行数;
3)业务理解:观察相同订单的特征变量取值是否一致,若取值相同,只需简单去重;否则,说明生成逻辑有误,需检查SQL逻辑。
4. 单一值
1)功能:统计变量中某一固定值的占比;
2)指标:变量每个取值的出现次数;
3)业务理解:如果变量取值中,某一固定值占比很高,那么该变量区别度往往很低,通常单一值比例超过90%以上,建议删除该变量。
5. 其他数据质量检查
变量取值本身具有某些业务含义,我们需要结合业务来检验,并记录归档。例如:
- 特殊值归档说明:例如,-999是代表缺失,还是其他含义,需给出描述说明。
- 0的业务逻辑确认:真实值为0?数据缺失?默认填充值?
注:未来在学习中,若有新内容再持续更新!
以上是关于风控模型之探索性数据分析的主要内容,如果未能解决你的问题,请参考以下文章
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stackingblending