人类可解释的监督机器学习算法

Posted

技术标签:

【中文标题】人类可解释的监督机器学习算法【英文标题】:Human-interpretable supervised machine learning algorithm 【发布时间】:2014-01-09 05:32:42 【问题描述】:

我正在寻找一种有监督的机器学习算法,它可以生成透明的规则或定义,并且可以很容易地被人类解释。

我使用的大多数算法(SVM、随机森林、PLS-DA)都不是很透明。也就是说,您很难在针对非计算机科学家读者的出版物中以表格形式总结模型。作者通常做的是,例如,发布基于某些标准的重要变量列表(例如,基尼指数或 RF 情况下的平均准确性下降),有时通过指出这些变量的不同之处来改进此列表在有问题的类之间。

我正在寻找的是一个相对简单的样式输出“如果(任何变量 V1-V10 > 中值或任何变量 V11-V20 第 3 个四分位数,那么类一个”。

周围有这样的东西吗?

只是为了限制我的问题:我正在处理高度多维的数据集(数万到数十万个通常共线的变量)。因此,例如回归树不是一个好主意(我认为)。

【问题讨论】:

你的意思是像一个简单的decision tree? 您希望决策边界可解释,还是如果每个单个决策都可解释就足够了?例如,对于 k 个最近的邻居,决策边界可能非常复杂,但您可以通过显示最近的 k 个邻居来向人类用户解释每个决策(这很容易理解)。 @RogerRowland 好吧,我缺乏计算机科学的基础知识,但是是的,类似的东西。除了它应该适用于高度多维的数据集和有序变量而不是连续变量。 【参考方案1】:

您听起来像是在描述决策树。为什么回归树不是一个好的选择?也许不是最优的,但它们有效,而且这些是最直接可解释的模型。任何适用于连续值的东西都适用于序数值。

想要一个准确的分类器和想要一个简单且可解释的模型之间存在矛盾。您可以构建一个随机决策森林模型,并以多种方式对其进行约束以使其更易于解释:

小最大深度 高最小信息增益 修剪树 只训练“可理解”的特征 量化/舍入决策阈值

模型不一定那么好。

【讨论】:

【参考方案2】:

您可以在 Google Brain 的 Ben Kim 所做的理解 AI 方法中找到有趣的 research。

【讨论】:

以上是关于人类可解释的监督机器学习算法的主要内容,如果未能解决你的问题,请参考以下文章

学习打卡03可解释机器学习笔记之CAM类激活热力图

学习打卡03可解释机器学习笔记之CAM类激活热力图

《唐人街探案3》票房如何,有监督机器学习算法告诉你!

python_机器学习_监督学习模型_决策树

机器学习之K-近邻算法

一导论——可解释性机器学习(DataWhale组队学习)