华泰人工智能系列之揭开机器学习模型的“黑箱”

Posted Quant的自我修养

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了华泰人工智能系列之揭开机器学习模型的“黑箱”相关的知识,希望对你有一定的参考价值。

       这篇文章介绍六种机器学习模型解释方法的原理,并以华泰 XGBoost 选股模型为例,尝试揭 开机器学习模型的“黑箱”。机器学习多属于黑箱模型,而资管行业的伦理需要可解释的 白箱模型。除传统的特征重要性外,ICEPDPSDTLIMESHAP 都是解释模型的有 力工具。揭开选股模型黑箱,他们认为:1)价量类因子的重要性整体高于基本面类因子;2)XGBoost 模型以非线性的逻辑使用因子,因子的非线性特点在市值、反转、技术、情 绪因子上体现尤为明显。

       这篇文章还比较模型解释方法的优缺点。


        目前的人工智能算法,即使是近年来发展迅猛的深度神经网络,和线性回归并无本质上的 不同,仍是对样本特征 和标签 进行拟合,区别无非是机器学习模型的非线性拟合能力更强。人工智能并不具备真正的“智能”。模型只能学习特征和标签的相关关系,但无法 挖掘其中的因果关系。如果不将机器学习模型的黑箱打开,不弄清机器学习模型的“思考” 过程,直接使用机器学习的判断结果,可能带来较大的风险。

近年来研究者提出诸多机器学习模型解释方法,除了传统的特征重要性外,ICEPDPSDTLIMESHAP 都是揭开机器学习模型黑箱的有力工具。特征重要性计算依据某个特 征进行决策树分裂时,分裂前后的信息增益。ICE 和 PDP 考察某项特征的不同取值对模 型输出值的影响。SDT 用单棵决策树解释其它更复杂的机器学习模型。LIME 的核心思想 是对于每条样本,寻找一个更容易解释的代理模型解释原模型。SHAP 的概念源于博弈论, 核心思想是计算特征对模型输出的边际贡献。

这里附上完整研报http://server.9yuntu.com/doc/oB0GNqgrk0AKfdw30TP0kh或者可以扫一下二维码,不需要验证就可以




以上是关于华泰人工智能系列之揭开机器学习模型的“黑箱”的主要内容,如果未能解决你的问题,请参考以下文章

人工智能系列经典图书翻译可解释机器学习(第二版)

人工智能系列经典图书翻译可解释机器学习(第二版)

华泰资讯自然语言处理在金融投资领域的应用

代码案例详解!如何让机器学习模型自解释!⛵

人工智能系列 之机器学习DBSCAN聚类算法

XAI/ML:可解释人工智能XAI/ 机器学习模型可解释性的简介意义常用方法(包括工具包)及其对比之详细攻略