智能风控中的常用算法
Posted 消费金融风控联盟
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了智能风控中的常用算法相关的知识,希望对你有一定的参考价值。
1有监督学习
对于有标签的训练数据, 我们可以利用有监督学习( Supervised Learning)建立数学模型, 并把模型运用到标签未知的数据上进行预测。
1.1 逻辑回归
逻辑回归(Logistic Regression, LR)是评分卡模型的理论基础。
1.2 决策树
决策树(Decision Tree)是风控从业者较常用的一门技术,业务人员利用它来配置复杂规则和实现决策流的可视化,建模人员则以它为基础衍生出很多复杂的集成树模型做预测。决策树中包括一个根节点、若干个内部节点和若干个叶节点,其中叶节点对应最终的决策结果,其他节点对应样本集的数据维度。
1.3 随机森林
单棵决策树在预测过程中略显粗糙, 因此数据科学家们提出了集成树( Ensemble Tree)的思想, 通过多棵决策树的结合, 使模型具有更优越的泛化性能。随机森林(Random Forest)是一种具有代表性的集成树模型, 利用 Bagging 的思想,对于数据集D有放回的采样m个样本集, 针对每个样本集从d个属性中随机选取k 个属性训练决策树, 最终将 m 个决策树的结果进行投票, 确定样本的预测类别。
1.4 梯度提升决策树
集成树中另一大类是梯度提升决策树( Gradient Boosting Decision Tree,GBDT)。GBDT与随机森林的区别在于,随机森林利用Bagging的思想并行生成多个决策树,而GBDT 基于 Boosting的思想, 每个新生成的决策树会重点修正已生成决策树集合的误差, 一个个决策树的结果累加从而实现降低损失函数 的目标, 是一种串行的思想。
2 无监督学习
2.1 聚类
聚类( Clustering)是将样本集划分为若干个不相交的簇, 使得簇内相似度高,簇间相似度低, 每个簇具有一定的规律。
2.2 孤立森林
异常样本通常具有数量少和在某些特征属性上不同于正常样本这两个特点,如果按照特征属性对样本集D进行划分,异常样本一定会在更少次数下被划分出来。正常样本X;经过 11 次划分才从整体中被孤立出来,而异常样本仅需要4次。
3 深度学习
3.1 深度神经网络
3.2 循环神经网络
深度学习中的循环神经网络( Recurrent Neural Network, RNN)能够较好地解决这种时间序列问题, 它通过权重共享的方式, 将过去时刻重要的信息编码并传入当前时刻的神经元, 使模型具有了记忆能力。
3.3 词嵌入
除去DNN和RNN这两种可以用来搭建风控模型的深度学习框架, 词嵌入( Embedding)也是 目前业界经常使用的深度学习技术, 是从海量互联网数据中提炼隐性特征的 “大杀器” 。
3.4 自编码器
自编码器(Autoencoder)是深度学习中的一种无监督算法, 与Embedding算法类似, 也利用了空间映射的理念, 不过自编码器要求输入层和输出层维度一致。
3.5 迁移学习
顾名思义, 迁移学习( Transfer Learning)就是将一个任务或者领域中已经学习到的知识应用到其他任务或者领域中的一种方法。
4 图计算
5 强化学习
虽然目前在信贷场景中使用不多, 但是却大有想象空间的算法, 那就是强化学习。
更多精彩扫码获取
备注:读书笔记仅针对于知识分享,版权属于原作者 ,如有侵权请联系管理 Vivian:wmyd80
欢迎添加:
以上是关于智能风控中的常用算法的主要内容,如果未能解决你的问题,请参考以下文章