全局模型无关方法
Posted 上下求索.
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了全局模型无关方法相关的知识,希望对你有一定的参考价值。
第 8 章 全局模型无关方法
全局方法描述了机器学习模型的一种惯例做法。与全局方法相对应的是局部方法。全局方法通常表示为基于数据分布的预期值。例如,部分依赖图是一个特征效应图,是所有其他特征都被边缘化时的预期预测。由于全局解释方法描述了平均行为,因此当建模者想要了解数据中的一般机制或调试模型时,它们特别有用。
在本书中,你将了解以下与模型无关的全局解释技术:
- 部分依赖图是一种特征效应方法。
- 累积局部效应图是另一种在特征依赖时起作用的特征效应方法。
- 特征交互(H-统计量)量化了预测在多大程度上是特征联合效应的结果。
- 函数分解是可解释性的核心思想,也是一种将复杂的预测函数分解为更小的部分的技术。
- 置换特征重要性衡量特征的重要性,作为置换特征时损失的增加。
- 全局代理模型用更简单的模型代替原始模型进行解释。
- 原型和批评是分布的代表性数据点,可用于增强可解释性。
8.1 部分依赖图
部分依赖图(简称PDP或PD图)显示了一个或两个特征对机器学习模型的预测结果的边际效应(J. H. Friedman 20011)。部分依赖图可以显示目标和特征之间的关系是线性的、单调的还是更复杂的。例如,当应用于线性回归模型时,部分依赖图始终呈现线性关系。
回归的部分依赖函数定义为:
f ^ S ( x S ) = E X C [ f ^ ( x S , X C ) ] = ∫ f ^ ( x S , X C ) d P ( X C ) \\hatf_S(x_S)=E_X_C\\left[\\hatf(x_S,X_C)\\right]=\\int\\hatf(x_S,X_C)d\\mathbbP(X_C) f^S(xS)=EXC[f^(xS,XC)]=∫f^(xS,XC)dP(XC)
x
S
x_S
xS 是绘制部分依赖函数的特征,
X
C
X_C
XC 是机器学习模型
f
^
\\hatf
f^ 使用的其他特征,它通常被看作随机变量。通常,集合
S
S
S 中只有一个或两个特征。
S
S
S中的
(
s
)
(s)
(s)是我们想知道对预测产生影响的那些特征。特征向量
x
S
x_S
xS 和
x
C
x_C
xC
组合构成总特征空间
x
x
x 。部分依赖通过将机器学习模型的输出边缘化到集合
C
C
C 中的特征分布来工作,因此该函数显示了我们感兴趣的集合
S
S
S 中的特征与预测结果之间的关系。通过边缘化其他特征,我们得到一个仅依赖于
S
S
S中的特征的函数,包括与其他特征的交互。
偏函数 f ^ S \\hatf_S f^S是通过计算训练数据中的平均值来估计的,也称为蒙特卡洛方法:
f ^ S ( x S ) = 1 n ∑ i = 1 n f ^ ( x S , x C ( i ) ) \\hatf_S(x_S)=\\frac1n\\sum_i=1^n\\hatf(x_S,x^(i)_C) f^S(xS)=n1i=1∑nf^(xS,xC(i))
对于集合 S S S 中给定的特征值 ( s ) (s) (s) ,偏函数告诉我们预测的边际效应平均值有多大。在这个公式中,是数据集中我们不感兴趣的特征的实际特征值, n n n 是数据集中的实例数。 P D P PDP PDP 的一个假设是 C C C 中的特征与 S S S 中的特征不相关。如果违反此假设,则为部分依赖图计算的平均值将包括靠谱甚至不可能的数据点(请参阅对劣势的描述)
对于机器学习模型输出概率的分类,部分依赖图显示的是集合 S S S 中某些类被赋予了不同特征值 ( s ) (s) (s)的概率。处理多个类的一种简单方法是为每个类绘制一条线或一副图。
部分依赖图是一种全局方法:该方法考虑到了所有实例,描述了特征与预测结果之间全局关系。
分类特征
到目前为止,我们只考虑了数值特征。对于分类特征,部分依赖很容易计算。对于每个类别,我们通过强制所有数据实例具有相同类别来获得 P D P PDP PDP 估计。例如,如果我们查看自行车租赁数据集并对季节的部分依赖图感兴趣,我们会得到四个数字,每个季节一个。为了计算 “ s u m m e r ” “summer” “summer” 的值,我们将所有数据实例的季节替换为 “ s u m m e r ” “summer” “summer” 并对预测进行平均。
8.1.1 基于 PDP 的特征重要性
G r e e n w e l l Greenwell Greenwell 2等人在2018年提出了一种简单的基于部分依赖特征重要性度量方法。根本动因是平滑的 P D P PDP PDP 表明特征不重要, P D P PDP PDP 变化越大,特征越重要。对于数值特征,重要性定义为每个唯一特征值与平均曲线的偏差:
I ( x S ) = 1 K − 1 ∑ k = 1 K ( f ^ S ( x S ( k ) ) − 1 K ∑ k = 1 K f ^ S ( x S ( k ) ) ) 2 I(x_S) = \\sqrt\\frac1K-1\\sum_k=1^K(\\hatf_S(x^(k)_S) - \\frac1K\\sum_k=1^K \\hatf_S(x^(k)_S))^2 I(xS)=K−11k=1∑K(f^S(xS(k))−K1k=1∑Kf^S(xS(k)))2
这里要注意的是, x S ( k ) x^(k)_S xS(k) 是 X S X_S XS 特征 K 的唯一值。对于分类特征公式如下:
I ( x S ) = ( m a x k ( f ^ S ( x S ( k ) ) ) − m i n k ( f ^ S ( x S ( k ) ) ) ) / 4 I(x_S) = (max_k(\\hatf_S(x^(k)_S)) - min_k(\\hatf_S(x^(k)_S)))/4 I(xS)=(maxk(f^S(xS(k)))−mink(f^S(xS(k))))/4
这是唯一类别的 以上是关于全局模型无关方法的主要内容,如果未能解决你的问题,请参考以下文章