向企业解释机器学习模型
Posted 新技术观察
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了向企业解释机器学习模型相关的知识,希望对你有一定的参考价值。
如何创建商业决策者能够理解的机器学习系统的决策摘要。
可解释机器学习是人工智能(AI)和机器学习的一个分支学科,它试图总结机器学习系统是如何做出决策。总结机器学习系统如何做出决策在很多方面都是有帮助的,比如发现数据驱动的见解,发现机器学习系统中存在的问题,保障机器学习系统的法律合规性,以及允许用户申诉或操作人员否决不可避免的错误决策。
当然,这一切听起来都很棒,但可解释的机器学习还不是一门完善的学科。事实上,可解释机器学习有两个主要问题需要牢记:
一些“黑匣子”机器学习系统可能过于复杂以致于无法准确概括;
即使是设计成可解释的机器学习系统,有时摘要信息的呈现方式对商务人士来说仍然过于复杂。(图1是为数据科学家提供的一个机器学习解释的例子)
Figure 1 H2O无人驾驶人工智能创造的解释,这些解释可能更适合数据科学家,而不是业务用户。
对于第一个问题,我假设您想要使用当今可用的多种精确且可解释的机器学习模型中的一种,比如开源框架h2o-3、LightGBM和XGBoost中的单调梯度提升器。本文关注问题2,帮助您向商业决策者清晰地传达可解释的机器学习结果。
本文分为两个主要部分。第一部分介绍了一个机器学习系统和整个数据集的解释性摘要(即“全局”解释)。文章的第二部分讨论了机器学习系统关于数据集中特定数据的决策摘要(即“局部”解释)。同时,我将使用一个简单的关于预测信用卡支付的例子来说明。
一般的总结(General summaries)
在众多的选择中,有两种好的以整个数据集为代表的方法可以为客户总结机器学习系统,那就是变重要性图和代理决策树。现在,因为我想让业务人员关心和理解我的结果,我将这两者分别称为“主要驱动因素图”和“决策流程图”。
主要驱动因素图
总的来说,主要驱动因素图提供了一个可视化的总结和排序,展示其中哪些因素对机器学习系统的决策最重要。这是一个高水平的总结,也是开始交流机器学习系统如何工作的好工具。在这个示例问题中,我试图预测9月份信用卡未支付的金额,给出之前6个月的支付状态、支付金额和账单金额。图2告诉我的是,对于我构建的机器学习系统,到目前为止,对我的数据集中的大多数客户来说,上个月的还款状况是最重要的因素。我还可以看到,7月和6月的还款状况是第二重要的因素。
在这个示例问题中,我试图预测9月份信用卡未支付的金额,给出之前6个月的支付状态、支付金额和账单金额。图2告诉我的是,对于我构建的机器学习系统,到目前为止,对我的数据集中的大多数客户来说,上个月的还款状况是最重要的因素。我还可以看到,7月和6月的还款状况是紧接着的重要因素。
Figure 2 对整个信用卡客户数据集来说,关于9月份丢失信用卡付款的模型决策的主要驱动因素
我是怎么做这个图表的?它只是对传统的变重要性图做了一点修改。为了使显示的信息尽可能准确,我选择了一个可解释的模型,并采用可靠的变量重要性计算。当我知道我的结果在数学上是可靠的之后我就会考虑演示。在本例中,首先我从这个图表中删除了所有的数字。
虽然数值变量重要性值可能对数据科学家有意义,但大多数业务人员并没有时间关心和他们的业务无关的数字。我还用直接有意义的数据标签替换了原始变量名,因为没有业务人员真正愿意考虑我的数据库模式。
一旦我用一个可理解的图表总结了我的系统,我就可以去找我的商业伙伴,问一些非常重要的问题,比如:
我的系统是否过于强调8月份的还款情况?
或者,4月份的付款金额比8月份的付款金额多,是否有意义?
根据我的经验,在我的机器学习系统中考虑这些领域知识可以带来最好的技术和商业成果。
决策流程图
决策流程图展示了预测因素如何共同作用,推动机器学习系统的决策,图3将整个机器学习系统归结为一个流程图。
Figure 3 这张流程图大致显示了一个复杂的模型如何对整个信用卡客户数据集在9月份丢失的信用卡付款做出决策
我是如何把整个机器学习系统总结成流程图的?我使用了一个被称为代理模型的旧的数据挖掘技巧。代理模型是复杂模型的简单模型。在这种情况下,我的简单模型是一个决策树,或者一个数据驱动的流程图,而我的复杂模型是我的机器学习系统的输入因素和决策。所以,决策流程图是在更复杂的机器学习的简单机器学习。
不幸的是,这个技巧并不能保证每次都有效。有时候,机器学习系统太复杂了,不能用一个简单的模型来准确地表示。因此,数据科学家在创建图3这样的图表时需要考虑的一个关键问题是:我的决策树代理模型需要有有多准确和稳定?在业务方面,如果一个数据科学家向你展示了一个如图3所示的图表,你应该向他们提出挑战,以证明这是一个准确和稳定的机器学习系统表示。
如果你想做决定流程图,记得试图限制底层机器学习系统的复杂性,保持你的流程图三到五层决策的深度(图3使用深度是三),并使用人类可读的数据格式而不是你最喜欢的标签编码。
具体的总结(Specific summaries)
如果你在金融服务行业工作,你可能会发现,有时每个客户的每个机器学习系统的决策都必须被解释或总结。对于数据科学世界的其他人来说,解释单个机器学习系统的决策可能不是一个监管要求,但我认为这是一个最佳实践。相关监管也可能即将出台。为什么不准备好呢?
没有人想要被告知“计算机说NO”,尤其是当计算机是错误的时候。因此,消费者级别的解释对数据科学家和消费者都很重要,因为数据科学家可能想要调试糟糕的机器学习行为,而消费者应该能够上诉对他们产生负面影响的错误决定。
我将重点讨论两种解释方法,它们总结了机器学习系统对特定数据的决策,Shapley值(如图2所示)和反事实解释(counterfactual explanations)。由于数据科学术语在这种情况下没有帮助,我将把这两种方法称为主要决策驱动和“反例”。此外,请记住,创建特定数据的解释还有许多其他方法可以选择。
主要决策驱动(Main decision drivers)
Shapley值可以用于总结整个数据集的机器学习系统(图2)或单独的决策级别(图4)。当你使用正确的基础机器学习和Shapley算法时,这些单独总结解释可以非常准确。我认为大多数数据科学家在向商业伙伴解释Shapley值时会犯错误。我的建议是永远不要使用方程,也不要使用图或表格。只需用简单的语言写出优雅的Shapley值解释。这种方法的实际应用,请查看图4。它显示了三种最重要的驱动因素来对一个客户进行决策,我的机器学习系统判定该客户错过9月份付款的风险高于平均水平。
图4:该客户9月份拖欠还款风险高于平均水平的前三大驱动因素是:
这位客户8月份的付款延迟。
这位客户7月份的付款延迟。
这位客户3月份的付款延迟。
Figure 4:对于特定客户来说9月份错过付款的模型决策的三大驱动因素。
反例(Counter-examples)
反例解释了为了从机器学习系统中获得不同的结果,客户可以采取什么不同的做法。有时您可以使用软件库来创建反例,或者您可以使用试错法,更改机器学习系统的输入,并观察系统输出的变化,来创建您自己的反例。事实证明,对于图5所示的高风险客户来说,如果他们最近按时付款,而不是延迟,我的机器学习系统将使他们错过即将到来的9月付款的风险大大降低。
图5:
如果该客户能按时支付8月和7月的付款,他们9月付款延迟的风险会低得多。
Figure 5:一个反例:关于一个特定客户在9月份没有付款
一旦你能看到机器学习系统做出给定决策背后的逻辑和数据点,数据科学家就能更容易地捕捉和修正坏数据或错误决策。客户与机器学习系统交互,也更容易捕捉和申诉同样类型的错误数据或决策。
这些解释对于遵守美国的《平等信用机会法》(ECOA)和《公平信用报告法》(FCRA)以及欧盟的《一般数据保护条例》(GDPR)等法规也有潜在的帮助。
负责任机器学习
依靠一个你不理解的系统带来的无数风险是在商业世界中采用人工智能和机器学习的主要障碍。如果你能打破这些障碍,那就是向前迈进了一大步。希望您会发现我在这里介绍的技术在这方面是有用的,但是一定要小心。除了我已经提到的准确性和沟通方面的问题,解释性ML也有一些安全和隐私方面的问题。
此外,可解释性只是降低机器学习风险的一部分。机器学习系统可能是完全透明的,但仍然歧视某些群体,或者在使用现实世界的数据进行决策时,既可能是透明的,也可能非常不稳定。由于这些或更多的原因,当对机器学习系统进行设计时,考虑隐私、安全和歧视风险是必要的,而不仅仅只考虑gpu和Python代码。
所有这些都引导我进行负责任的机器学习实践,但这是我下一篇文章需要思考的东西。可以说,在当今这个数据驱动的世界里,交流机器学习系统的结果是所有数据科学家的责任,通过正确的方法和正确的技术,向商业决策者解释人工智能和机器学习越来越成为一种可能。
Patrick Hall是H2o的数据科学产品高级总监。他主要关注模型的可解释性。他目前也是乔治华盛顿大学决策科学系的兼职教授,在那里他教授数据挖掘和机器学习的研究生课程。在加入H2o之前,Patrick曾在SAS研究所担任全球客户管理和研发职务。
参考资料:
1. Other great options for interpretable models include elastic net regression, explainable neural networks (XNN), GA2M, and certifiably optimal rule lists (CORELS).
2. I recommend monotonic gradient boosting machines plus TreeSHAP to generate accurate summaries.
3. Decision tree surrogates go back to at least 1996, but alternative methods have been put forward in recent years as well.
4. Governments of at least Canada, Germany, the Netherlands, Singapore, the United Kingdom, and the United States have proposed or enacted ML-specific regulatory guidance.
5. Like cleverhans or foolbox.
6. Risks of model extraction and inversion attacks and membership inference attacks are all generally exacerbated by presenting explanations along with predictions to consumers of ML-based decisions.
7. For a more thorough technical discussion of responsible machine learning see: “A Responsible Machine Learning Workflow.”
以上是关于向企业解释机器学习模型的主要内容,如果未能解决你的问题,请参考以下文章