全局模型无关方法

Posted 上下求索.

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全局模型无关方法相关的知识,希望对你有一定的参考价值。

第 8 章 全局模型无关方法

全局方法描述了机器学习模型的一种惯例做法。与全局方法相对应的是局部方法。全局方法通常表示为基于数据分布的预期值。例如,部分依赖图是一个特征效应图,是所有其他特征都被边缘化时的预期预测。由于全局解释方法描述了平均行为,因此当建模者想要了解数据中的一般机制或调试模型时,它们特别有用。

在本书中,你将了解以下与模型无关的全局解​​释技术:

  • 部分依赖图是一种特征效应方法。
  • 累积局部效应图是另一种在特征依赖时起作用的特征效应方法。
  • 特征交互(H-统计量)量化了预测在多大程度上是特征联合效应的结果。
  • 函数分解是可解释性的核心思想,也是一种将复杂的预测函数分解为更小的部分的技术。
  • 置换特征重要性衡量特征的重要性,作为置换特征时损失的增加。
  • 全局代理模型用更简单的模型代替原始模型进行解释。
  • 原型和批评是分布的代表性数据点,可用于增强可解释性。

8.1 部分依赖图

部分依赖图(简称PDP或PD图)显示了一个或两个特征对机器学习模型的预测结果的边际效应(J. H. Friedman 20011)。部分依赖图可以显示目标和特征之间的关系是线性的、单调的还是更复杂的。例如,当应用于线性回归模型时,部分依赖图始终呈现线性关系。

回归的部分依赖函数定义为:

f ^ S ( x S ) = E X C [ f ^ ( x S , X C ) ] = ∫ f ^ ( x S , X C ) d P ( X C ) \\hatf_S(x_S)=E_X_C\\left[\\hatf(x_S,X_C)\\right]=\\int\\hatf(x_S,X_C)d\\mathbbP(X_C) f^S(xS)=EXC[f^(xS,XC)]=f^(xS,XC)dP(XC)

x S x_S xS 是绘制部分依赖函数的特征, X C X_C XC 是机器学习模型 f ^ \\hatf f^ 使用的其他特征,它通常被看作随机变量。通常,集合 S S S 中只有一个或两个特征。 S S S中的 ( s ) (s) (s)是我们想知道对预测产生影响的那些特征。特征向量 x S x_S xS x C x_C xC
组合构成总特征空间 x x x 。部分依赖通过将机器学习模型的输出边缘化到集合 C C C 中的特征分布来工作,因此该函数显示了我们感兴趣的集合 S S S 中的特征与预测结果之间的关系。通过边缘化其他特征,我们得到一个仅依赖于 S S S中的特征的函数,包括与其他特征的交互。

偏函数 f ^ S \\hatf_S f^S是通过计算训练数据中的平均值来估计的,也称为蒙特卡洛方法:

f ^ S ( x S ) = 1 n ∑ i = 1 n f ^ ( x S , x C ( i ) ) \\hatf_S(x_S)=\\frac1n\\sum_i=1^n\\hatf(x_S,x^(i)_C) f^S(xS)=n1i=1nf^(xS,xC(i))

对于集合 S S S 中给定的特征值 ( s ) (s) (s) ,偏函数告诉我们预测的边际效应平均值有多大。在这个公式中,是数据集中我们不感兴趣的特征的实际特征值, n n n 是数据集中的实例数。 P D P PDP PDP 的一个假设是 C C C 中的特征与 S S S 中的特征不相关。如果违反此假设,则为部分依赖图计算的平均值将包括靠谱甚至不可能的数据点(请参阅对缺点的描述)

对于机器学习模型输出概率的分类,部分依赖图显示的是集合 S S S 中某些类被赋予了不同特征值 ( s ) (s) (s)的概率。处理多个类的一种简单方法是为每个类绘制一条线或一副图。

部分依赖图是一种全局方法:该方法考虑到了所有实例,描述了特征与预测结果之间全局关系。

分类特征

到目前为止,我们只考虑了数值特征。对于分类特征,部分依赖很容易计算。对于每个类别,我们通过强制所有数据实例具有相同类别来获得 P D P PDP PDP 估计。例如,如果我们查看自行车租赁数据集并对季节的部分依赖图感兴趣,我们会得到四个数字,每个季节一个。为了计算 “ s u m m e r ” “summer” summer 的值,我们将所有数据实例的季节替换为 “ s u m m e r ” “summer” summer 并对预测进行平均。

8.1.1 基于 PDP 的特征重要性

G r e e n w e l l Greenwell Greenwell 2等人在2018年提出了一种简单的基于部分依赖特征重要性度量方法。根本动因是平滑的 P D P PDP PDP 表明特征不重要, P D P PDP PDP 变化越大,特征越重要。对于数值特征,重要性定义为每个唯一特征值与平均曲线的偏差:

I ( x S ) = 1 K − 1 ∑ k = 1 K ( f ^ S ( x S ( k ) ) − 1 K ∑ k = 1 K f ^ S ( x S ( k ) ) ) 2 I(x_S) = \\sqrt\\frac1K-1\\sum_k=1^K(\\hatf_S(x^(k)_S) - \\frac1K\\sum_k=1^K \\hatf_S(x^(k)_S))^2 I(xS)=K11k=1K(f^S(xS(k))K1k=1Kf^S(xS(k)))2

这里要注意的是, x S ( k ) x^(k)_S xS(k) X S X_S XS 特征 K 的唯一值。对于分类特征公式如下:

I ( x S ) = ( m a x k ( f ^ S ( x S ( k ) ) ) − m i n k ( f ^ S ( x S ( k ) ) ) ) / 4 I(x_S) = (max_k(\\hatf_S(x^(k)_S)) - min_k(\\hatf_S(x^(k)_S)))/4 I(xS)=(maxk(f^S(xS(k)))mink(f^S(xS(k))))/4

这是唯一类别的 以上是关于全局模型无关方法的主要内容,如果未能解决你的问题,请参考以下文章

全局模型无关方法

高斯混合模型 (GMM) 提供与训练数据无关的结果

线性模型的最小二乘法拟合(转)

人工智能系列经典图书翻译可解释机器学习(第二版)

模型无关方法

模型无关方法