全局模型无关方法

Posted 2022-11-29 上下求索.

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了全局模型无关方法相关的知识，希望对你有一定的参考价值。

第 8 章全局模型无关方法

全局方法描述了机器学习模型的一种惯例做法。与全局方法相对应的是局部方法。全局方法通常表示为基于数据分布的预期值。例如，部分依赖图是一个特征效应图，是所有其他特征都被边缘化时的预期预测。由于全局解释方法描述了平均行为，因此当建模者想要了解数据中的一般机制或调试模型时，它们特别有用。

在本书中，你将了解以下与模型无关的全局解释技术：

部分依赖图是一种特征效应方法。
累积局部效应图是另一种在特征依赖时起作用的特征效应方法。
特征交互（H-统计量）量化了预测在多大程度上是特征联合效应的结果。
函数分解是可解释性的核心思想，也是一种将复杂的预测函数分解为更小的部分的技术。
置换特征重要性衡量特征的重要性，作为置换特征时损失的增加。
全局代理模型用更简单的模型代替原始模型进行解释。
原型和批评是分布的代表性数据点，可用于增强可解释性。

8.1 部分依赖图

部分依赖图（简称PDP或PD图）显示了一个或两个特征对机器学习模型的预测结果的边际效应（J. H. Friedman 2001¹）。部分依赖图可以显示目标和特征之间的关系是线性的、单调的还是更复杂的。例如，当应用于线性回归模型时，部分依赖图始终呈现线性关系。

回归的部分依赖函数定义为：

$\\hatf_S(x_S)=E_X_C\\left[\\hatf(x_S,X_C)\\right]=\\int\\hatf(x_S,X_C)d\\mathbbP(X_C)$

$x_S$ 是绘制部分依赖函数的特征， $X_C$ 是机器学习模型 $\\hatf$ 使用的其他特征，它通常被看作随机变量。通常，集合 $S$ 中只有一个或两个特征。 $S$ 中的 $(s)$ 是我们想知道对预测产生影响的那些特征。特征向量 $x_S$ 和 $x_C$
组合构成总特征空间 $x$ 。部分依赖通过将机器学习模型的输出边缘化到集合 $C$ 中的特征分布来工作，因此该函数显示了我们感兴趣的集合 $S$ 中的特征与预测结果之间的关系。通过边缘化其他特征，我们得到一个仅依赖于 $S$ 中的特征的函数，包括与其他特征的交互。

偏函数 $\\hatf_S$ 是通过计算训练数据中的平均值来估计的，也称为蒙特卡洛方法：

$\\hatf_S(x_S)=\\frac1n\\sum_i=1^n\\hatf(x_S,x^(i)_C)$

对于集合 $S$ 中给定的特征值 $(s)$ ，偏函数告诉我们预测的边际效应平均值有多大。在这个公式中，是数据集中我们不感兴趣的特征的实际特征值， $n$ 是数据集中的实例数。 $P D P$ 的一个假设是 $C$ 中的特征与 $S$ 中的特征不相关。如果违反此假设，则为部分依赖图计算的平均值将包括靠谱甚至不可能的数据点（请参阅对缺点的描述）

对于机器学习模型输出概率的分类，部分依赖图显示的是集合 $S$ 中某些类被赋予了不同特征值 $(s)$ 的概率。处理多个类的一种简单方法是为每个类绘制一条线或一副图。

部分依赖图是一种全局方法：该方法考虑到了所有实例，描述了特征与预测结果之间全局关系。

分类特征

到目前为止，我们只考虑了数值特征。对于分类特征，部分依赖很容易计算。对于每个类别，我们通过强制所有数据实例具有相同类别来获得 $P D P$ 估计。例如，如果我们查看自行车租赁数据集并对季节的部分依赖图感兴趣，我们会得到四个数字，每个季节一个。为了计算 $“ s u mm er ”$ 的值，我们将所有数据实例的季节替换为 $“ s u mm er ”$ 并对预测进行平均。

8.1.1 基于 PDP 的特征重要性

$G ree n w e ll$ ²等人在2018年提出了一种简单的基于部分依赖特征重要性度量方法。根本动因是平滑的 $P D P$ 表明特征不重要， $P D P$ 变化越大，特征越重要。对于数值特征，重要性定义为每个唯一特征值与平均曲线的偏差：

$I(x_S) = \\sqrt\\frac1K-1\\sum_k=1^K(\\hatf_S(x^(k)_S) - \\frac1K\\sum_k=1^K \\hatf_S(x^(k)_S))^2$

这里要注意的是， $x^(k)_S$ 是 $X_S$ 特征 K 的唯一值。对于分类特征公式如下：

$I(x_S) = (max_k(\\hatf_S(x^(k)_S)) - min_k(\\hatf_S(x^(k)_S)))/4$

这是唯一类别的以上是关于全局模型无关方法的主要内容，如果未能解决你的问题，请参考以下文章

全局模型无关方法

第 8 章 全局模型无关方法

8.1 部分依赖图

8.1.1 基于 PDP 的特征重要性

第 8 章全局模型无关方法