Python金融大数据风控建模实战
Posted ljtyxl
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Python金融大数据风控建模实战相关的知识,希望对你有一定的参考价值。
https://blog.csdn.net/qq_40844276
原创 《Python金融大数据风控建模实战》 第18章 模型融合
《Python金融大数据风控建模实战》 第18章 模型融合本章引言Python代码实现及注释本章引言模型融合思想认为,在多个表现较好的模型中,每个模型的预测结果都有一定的参考价值,并且每个模型在建模时考虑的策略也各有差异,如果能综合多个模型的优点,则最终的结果可能会更好。常用的方式为等权重加和,即每个模型的权重都是相同的。对于分类问题可以采用投票表决的方法将相对多的结果作为最终的决策结果;对于回归问题,可以采用求平均值的方式将均值作为最终的预测结果。另一种方法是给每个模型以不同的权重,这种方法假设大
2021-03-28 16:00:09
24
原创 《Python金融大数据风控建模实战》 第17章 集成学习
《Python金融大数据风控建模实战》 第17章 集成学习本章引言Python代码实现及注释本章引言集成学习旨在通过训练多个模型,扩展假设空间,进而逐步接近真实数据集中蕴含的规则。同时,多个训练模型同时陷入局部最小值的概率较低,保证了测试集可以得到相对较优的结果。目前,集成学习大致可分为两种:并行的集成方法Bagging和串行的集成方法Boosting。并行的集成方法中,基学习器的构建是相互独立的,没有先后顺序,可以同时进行建模。而串行的集成方法中,各个基学习器之间有强烈的依赖关系,即后一个模型是在前
2021-03-28 14:51:06
20
原创 《Python金融大数据风控建模实战》 第16章 支持向量机模型
《Python金融大数据风控建模实战》 第16章 支持向量机模型本章引言Python代码实现及注释本章引言Python代码实现及注释t sys#path = __file__#path = os.path.abspath(path + ((os.sep + '..') * 2))#sys.path.append(path)import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_s
2021-03-28 11:35:13
30
1
原创 《Python金融大数据风控建模实战》 第15章 神经网络模型
《Python金融大数据风控建模实战》 第15章 神经网络模型本章引言Python代码实现及注释本章引言神经网络模型是深度学习的基础。 从神经网络的结构中可以发现,模型的未知参数就是一系列权重值,网络结构越复杂其非线性表达能力越强,同时需要学习的权重就越多。误差反向传播算法(error BackPropagation,BP算法)是神经网络的学习策略中最著名的算法代表,不仅用于前馈神经网络的学习,还可以用于其他类型的神经网络,如递归神经网络的训练,而且在深度学习中也是采用BP算法进行网络训练的。Pyth
2021-03-23 17:27:48
34
原创 《Python金融大数据风控建模实战》 第14章 决策树模型
《Python金融大数据风控建模实战》 第14章 决策树模型本章引言Python代码实现及注释本章引言在评分卡建模中,模型可解释性也很重要。除了Logistic回归模型,决策树模型也是一个非常好理解的模型。决策树模型的规则组合以树的形式展现,由根节点到每一个叶结点的路径构成了一条规则,路径上中间节点的特征对应着具体规则的条件,每个叶结点代表决策结果。同时,这个规则集合具有互斥并完备的性质,即每一个实例都有且只有一条路径或一条规则所覆盖。决策树模型也可以理解为定义在特征空间与类空间的条件概率分布,由训练
2021-03-23 13:16:54
38
原创 《Python金融大数据风控建模实战》 第13章 特征工程进阶
《Python金融大数据风控建模实战》 第13章 特征工程进阶本章引言Python代码实现及注释本章引言数据和特征决定了机器学习的上限,而模型和算法只是进一步接近这个上限而已。特征工程在整个机器学习中的重要性不言而喻,而且特征工程严重依赖于行业知识。深度学习的出现给自动特征工程带来了希望,深度学习提出了一种端到端的学习模式,即无须人工特征工程,而只需要给定输入数据与预测目标,模型即可自动实现特征工程和训练等过程。但是,深度学习在图像数据、语音、时序数据中可以很好地实现自动特征工程,而对于样本间相互独立的
2021-03-21 15:13:28
26
原创 《Python金融大数据风控建模实战》 第12章 样本不均衡处理
《Python金融大数据风控建模实战》 第12章 样本不均衡处理本章引言Python代码实现及注释本章引言在实际的评分卡开发过程中,会出现分类样本不均衡的情况,比如违约的样本远远小于不违约的样本,这就是样本不均衡的分类问题。通常将数量较少的样本(坏样本)定义为正样本,将数量较多的样本(好样本)定义为负样本。要求模型对正样本(坏样本)和负样本(好样本)均具有较好的区分能力,但是在样本不均衡的情况下很难实现。特征选择时的影响样本不均衡会影响变量选择的效果。模型训练时的影响模型训练是在特征选择
2021-03-20 15:52:52
32
原创 《Python金融大数据风控建模实战》 第11章 模型在线监控
《Python金融大数据风控建模实战》 第11章 模型在线监控本章引言Python代码实现及注释本章引言第9章介绍了在模型开发阶段的评估指标。模型完成开发后,如果其性能满足基本要求,就可以在生产环境中上线使用。在这个阶段仍然需要对模型指标进行评估,其目的在于判断模型的有效性,通过指标的判断给模型提供更新机制,即模型要使用多久,以及当哪些指标发生恶化后需要终止使用并重新开发新模型。模型评估指标决定了模型上线使用的生命周期。Python代码实现及注释# 第11章:模型在线监控import osim
2021-03-20 11:10:32
40
原创 《Python金融大数据风控建模实战》 第10章 评分卡分数转化
《Python金融大数据风控建模实战》 第10章 评分卡分数转化本章引言Python代码实现及注释本章引言将模型预测概率转化为分数并设定分数阈值,是评分卡模型开发中非常重要的部分,这一步直接影响审批策略是否得当,进而影响信贷企业的利润与风险。由概率转化为分数需要满足以下条件:样本总的分数是由每个变量的分数之和累加得到模型预测概率的变化会引起分值以某一单位刻度发生改变每个变量的取值发生变化会引起样本分值的改变Python代码实现及注释# 第10章:评分卡生成import osimpo
2021-03-13 20:45:09
48
原创 《Python金融大数据风控建模实战》 第9章 模型的评估指标
《Python金融大数据风控建模实战》 第9章 模型的评估指标本章引言Python代码实现及注释本章引言模型的开发基于历史数据,而模型的使用则针对未来的数据。为了模拟这种建模方式,将数据集分为三部分:训练集、验证集和测试集。模型在训练集上的误差,即真实结果与预测结果间的差异,称为训练误差或经验误差;模型在验证集与测试集上的误差称为泛化误差。单个模型在训练集上训练希望训练误差较小,并在验证集上测试模型表现以确定单个模型的最优参数,当有多个候选模型时,需要在测试集上对比不同模型的测试表现,以选出最优的模型
2021-03-13 17:36:28
40
1
原创 《Python金融大数据风控建模实战》 第8章 Logistic回归模型
《Python金融大数据风控建模实战》 第8章 Logistic回归模型本章引言Python代码实现及注释本章引言Logistic回归是建立评分卡模型最常用的方法,因其具有输出概率、可解释性好和模型参数少等优势,即使在其他各种机器学习算法突飞猛进的情况下,也仍然是工业界建立评分卡模型的主流方法,其模型表现也常作为参考标准,用于衡量其他机器学习模型的效果。Python代码实现及注释# 第8章:logistic回归模型import osimport pandas as pdimport nump
2021-03-13 11:35:12
97
1
原创 《Python金融大数据风控建模实战》 第7章 变量选择
《Python金融大数据风控建模实战》 第7章 变量选择本章引言Python代码实现及注释本章引言变量选择常见的方法有过滤法、包装法、嵌入法,并且在上述方法中又有单变量选择、多变量选择、有监督选择、无监督选择。在实际应用中,单纯从数据挖掘的角度进行变量选择是不够的,还要结合业务理解对选择后的变量进行回测,以符合业务解释。Python代码实现及注释# 第7章:变量选择'''在变量分箱的基础上进行变量编码,然后进行变量编码,然后进行变量选择,变量选择程序主要采用scikit-learn包中的fea
2021-03-07 15:18:12
134
2
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第10章 内部排序
数据结构(C语言版)严蔚敏 吴伟民 编著 第10章 内部排序10.1 概述10.2 插入排序10.2.1 直接插入排序10.2.2 其他插入排序10.1 概述排序是将一个数据元素(或记录)的任意序列,重新排列成一个按关键字有序的序列。从第9章讨论中可以看出,通常希望计算机中的表是按关键字有序的。因为有序的顺序表可以采用效率更高的折半查找法,其平均查找长度为log2(n+1)-1,而无序的顺序表只能进行顺序查找,其平均查找长度为(n+1)/2。又如建造树表(无论是二叉排序树或B-树)的过程本身就是一个排序
2021-03-02 17:02:58
33
1
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第9章 查找
数据结构(C语言版)严蔚敏 吴伟民 编著 第9章 查找前言9.1 静态查找表9.1.1 顺序表的查找9.1.2 有序表的查找9.1.3 静态树表的查找9.1.4 索引顺序表的查找9.2 动态查找表9.2.1 二叉排序树和平衡二叉树前言本书在第2章和第7章已经介绍了各种线性和非线性的数据结构,在这一章将讨论另一种在实际应用中大量使用的数据结构——查找表。查找表是由同一类型的数据元素(或记录)构成的集合。由于集合中的数据元素之间存在着完全松散的关系,因此查找表是一个非常灵便的数据结构。对查找表经常进行的
2021-02-28 17:16:42
45
数据结构(C语言版)严蔚敏 吴伟民 编著 第7章 图前言7.1 图的定义和术语7.2 图的存储结构7.2.1 数组表示法前言在图形结构中,结点之间的关系可以是任意的,图中任意两个元素之间都可能相关。由此,图的应用极为广泛,已渗入到诸如语言学、逻辑学、物理、化学、电讯工程、计算机科学以及数学的其他分支中。7.1 图的定义和术语在图中的数据元素通常称为顶点,V是顶点的有穷非空集合,VR是两个顶点之间的关系的集合。若<v,w>∈VR,则<v,w>表示从v到w的一条弧,且称v为弧尾或
2021-02-24 16:57:29
72
1
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第6章 树和二叉树
数据结构(C语言版)严蔚敏 吴伟民 编著 第6章 树和二叉树前言6.1 树的定义和基本术语二、使用步骤前言树形结构是一类重要的非线性数据结构,其中以树和二叉树最为常用,直观看来,树是以分支关系定义的层次结构。树在计算机领域中也得到广泛应用,如在编译程序中,可用树来表示源程序的语法结构。又如在数据库系统中,树形结构也是信息的重要组织形式之一。本章重点讨论二叉树的存储结构及其各种操作,并研究数和森林与二叉树的转换关系。6.1 树的定义和基本术语树是n(n≥0)个结点的有限集。在任意一棵非空树中:(1)
2021-02-19 20:43:41
66
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第5章 数组和广义表
数据结构(C语言版)严蔚敏 吴伟民 编著 第5章 数组和广义表前言5.1 数组的定义5.2 数组的顺序表示和实现5.3 矩阵的压缩存储5.3.1 特殊矩阵5.3.2 稀疏矩阵5.4 广义表的定义5.5 广义表的存储结构前言前几章讨论的线性结构中的数据元素都是非结构的原子类型,元素的值是不再分解的。本章讨论的两种数据结构——数组和广义表可以看成是线性表在下述含义上的扩展:表中的数据元素本身也是一个数据结构。5.1 数组的定义类似于线性表,抽象数据类型数组可形式化定义为:ADT Array 数据
2021-02-18 21:37:20
95
数据结构(C语言版)严蔚敏 吴伟民 编著 第4章 串前言4.1 串类型的定义前言计算机上的非数值处理的对象基本上是字符串数据。在较早的程序设计语言中,字符串是作为输入和输出的常量出现的。随着语言加工程序的发展,产生了字符串处理。这样,字符串也就作为一种变量类型出现在越来越多的程序设计语言中,同时也产生了一系列字符串的操作。字符串一般简称为串。在汇编和语言的编译程序中,源程序及目标程序都是字符串数据。在事务处理程序中,顾客的姓名和地址以及货物的名称、产地和规格等一般也是作为字符串处理的。又如信息检索系统、
2021-02-17 22:20:47
95
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第3章 栈和队列
数据结构(C语言版)严蔚敏 吴伟民 编著 第3章 栈和队列前言3.1 栈3.1.1 抽象数据类型栈的定义3.1.2 栈的表示和实现3.2 栈的应用举例3.2.1 数制转换3.2.2 括号匹配的检验3.2.3 行编辑程序3.2.4 迷宫求解3.2.5 表达式求值3.3 栈与递归的实现3.4 队列3.4.1 抽象数据类型队列的定义3.4.2 链队列——队列的链式表示和实现3.4.3 循环队列——队列的顺序表示和实现前言栈和队列是两种重要的线性结构,从数据结构角度看,栈和队列也是线性表,其特殊性在于栈和队列的
2021-02-17 16:50:20
89
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第2章 线性表
数据结构(C语言版)严蔚敏 吴伟民 编著 第2章 线性表前言2.1 线性表的类型定义2.2 线性表的顺序表示和实现2.3 线性表的链式表示和实现2.3.1 线性链表2.3.2 循环链表2.3.3 双向链表2.4 一元多项式的表示和相加前言从第2章到第4章将讨论线性结构,线性结构的特点:是在数据元素的非空有限集合中存在唯一的一个被称作“第一个”的数据元素存在唯一的一个被称作“最后一个”的数据元素除第一个外,集合中的每个数据元素均只有一个前驱除最后一个外,集合中的每个数据元素均只有一个后继2.
2021-02-16 22:31:29
56
原创 数据结构(C语言版)严蔚敏 吴伟民 编著 第1章 绪论
数据结构(C语言版)严蔚敏 吴伟民 编著 第1章 绪论1.1 什么是数据结构?1.2 基本概念和术语1.3 抽象数据类型的表示与实现1.1 什么是数据结构?用计算机解决一个具体问题时,大致需要经过下列几个步骤:首先要从具体问题抽象出一个适当的数学模型,然后设计一个解此数学模型的算法,最后编出程序,进行调试,调整直至得到最终解答。寻找数学模型的实质是分析问题,从中提取操作的对象,并找出这些操作对象之间含有的关系,然后用数学的语言加以描述。描述这类非数值问题的数学模型不再是数学方程,而是诸如表、树和图之类的
2021-02-12 13:12:57
120
2
原创 《Python金融大数据风控建模实战》 第6章 变量分箱方法
《Python金融大数据风控建模实战》 第6章 变量分箱方法本章引言Python代码实现及注释本章引言变量分箱是一种特征工程方法,意在增强变量的可解释性与预测能力。变量分箱方法主要用于连续变量,对于变量取值较稀疏的离散变量也应该进行分箱处理。变量分箱对模型的好处:降低异常值的影响,增强模型的稳定性数据中存在异常值会使模型产生一定的偏差,从而影响预测效果。通过分箱模型可以降低异常值的噪声特性,使模型更稳健。树模型对异常值不敏感,但Logistic回归模型和神经网络对异常值敏感。缺失值作为特
2021-02-11 17:19:31
417
2
原创 《Python金融大数据风控建模实战》 第5章 变量编码方法
《Python金融大数据风控建模实战》 第5章 变量编码方法本章引言Python代码实现及注释本章引言在机器学习中,样本、变量、标签、模型等概念会频繁出现,本章从变量角度给出实际应用中的处理方法。机器学习模型通常只能处理结构化数据,而非结构化数据要转化为结构化数据才可以用于模型训练。在机器学习中,变量、字段、属性、特征、输入、预测因子、自变量是同一个意思,样本、观测、实例、记录是同一个意思,结果、预测变量、输出、目标、因变量、响应、标签是同一个意思。在统计学中,将变量按照取值是否连续分为离散变量和连续
2021-02-06 21:35:40
182
原创 《Python金融大数据风控建模实战》第4章 数据清洗与预处理
《Python金融大数据风控建模实战》 第4章 数据清洗与预处理本章引言Python代码实现及注释《Python金融大数据风控建模实战》第4章 数据清洗与预处理本章引言数据清洗与预处理是整个评分卡模型开发乃至整个机器学习模型
以上是关于Python金融大数据风控建模实战的主要内容,如果未能解决你的问题,请参考以下文章