文献阅读数据重采样+特征选择

Posted Tabitha_Xing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文献阅读数据重采样+特征选择相关的知识,希望对你有一定的参考价值。

目录

1 面向不均衡数据的多分类集成算法

1.1 两阶段采样

1.2 算法整体框架

1.3 实验

1.4 期刊

2 基于多阶段混合集成的中小企业信用风险评价

摘要:中小企业信用风险评价是融合了处理样本类不平衡、数据高维冗余、集成分类算法选择等多阶段问题的混合集成体系,而目前的研究多集中在单一阶段。本文选用三种采样方法、两种降维方法以及两类集成分类算法,组成了十二个混合集成系统,通过实证分析不同的采样与降维思路对中小企业信用风险评价结果的影响,并从中选取最佳的集成策略。其中,SMOTEENN算法(SMOTE+数据清洗)是指通过将SMOTE算法扩充数据集,得到新数据集,过采样之后基于ENN数据清理技术对样本重叠数据进行清洗,相较于SMOTE过采样算法,可以将部分不合理的人工样本剔除。

3 基于边界自适应SMOTE和FocalLoss函数改进LightGBM的信用风险预测模型

3.1 摘要

提出一种新的基于边界自适应合成少数类过采方法(BA-SMOTE)和利用FocalLoss函数改进LightGBM损失函数的算法(FLLightGBM)相结合的信用风险预测模型。
(1)在边界合成少数类过采样(Borderline-SMOTE)的基础上,引入自适应思想和新的插值方式,使每个处于边界的少数类样本生成不同数量的新样本,并且新样本的位置更靠近少数类样本,以此来平衡数据集;
(2)利用Focal Loss函数(这是啥函数)来改进LightGBM算法的损失函数,并以改进的算法训练新的数据集以得到最终结合BA-SMOTE方法和FLLightGBM算法建立的BA-SMOTE-FLLightGBM模型;
(3)最后在Lending Club数据集上进行信用风险预测。

3.2 改进的过采样方法

(1)Borderline-SMOTE算法虽然改善了样本重叠问题,但是生成新样本的方式与SMOTE算法相同,对于每个少数类样本合成的新样本数是一样的,并没有考虑到样本差异性带来的影响;并且当处于边界的少数类样本过采样时,新生成的样本也会处于样本边界,这样容易使多数类与少数类的样本边界越来越模糊【很抽象 不太理解】。
(2)将自适应密度分布思想(干嘛用的)引入Borderline-SMOTE算法中,并且利用新的插值方式生成新样本来解决上述问题。

3.3 基于Focal Loss改进的LightGBM算法

(1)LightGBM算法

(2)FLLightGBM算法

在标准交叉熵损失函数的基础上进行修改,调整损失函数的类别权重和易分类样本权重及难分类样本权重以提升模型的分类准确率。

3.4 基于BA-SMOTE和FLLightGBM分类模型

3.4.1 随机森林特征选择

3.5 期刊

4 基于 ADASYN-SFS-RF的欺诈检测模型泛化性能提升及可解释性研究

  • ADASYN算法将分类决策边界向困难的实例进行自适应移动实现数据扩增,以解决不平衡数据造成的过拟合问题;
  • 基于随机森林的序列向前搜索策略算法筛选出最优特征子集对欺诈进行检测,减低采样算法添加噪声数据对分类边界确定的影响,构建欺诈监测模型;
  • 使用LIME对模型检测见过最初局部解释,提高模型的使用价值。

总结

  • 数据采样部分不仅仅局限于经典算法的简单改进,思路还可以扩展,要多读文献;
  • 可以从插值方式设计、采样策略设计两个角度深入;
  • 特征选择本身可以继续针对阈值设定部分展开探讨;
  • 特征选择算法本身了解不足,对比算法有待扩充。

以上是关于文献阅读数据重采样+特征选择的主要内容,如果未能解决你的问题,请参考以下文章

从信用卡欺诈模型看不平衡数据分类数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制。过采样后模型选择RFxgboost神经网络能够取得非常不错的效果。模型层面:

深度学习文献阅读笔记

信用风险评估评分卡建模方法及原理

集成学习模型(xgboostlightgbmcatboost)进行回归预测构建实战:异常数据处理缺失值处理数据重采样resample独热编码预测特征检查特征可视化预测结构可视化模型

ArcGis重采样

python数据分析案例实战——融360客户贷款风险预测(信用卡)