统计学习三要素

Posted 2021-01-03 0xcafe

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了统计学习三要素相关的知识，希望对你有一定的参考价值。

原文链接：https://www.mlpod.com/mlbase/23.html

三要素：方法=模型+策略+算法。

1.1 模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。假设空间用$mathcal{F}$表示，假设空间可以定义为$$mathcal{F} = left{ {f|Y = {f_ heta }left( X ight), heta in {mathbb{R}^n}} ight}$$或$$mathcal{F} = left{ {P|{P_ heta }left( {Y|X} ight), heta in {mathbb{R}^n}} ight}$$，$ heta$为参数向量。

1.2 策略

1.2.1 损失函数和风险函数

监督学习问题是在假设空间$mathcal{F}$中选取模型$f$作为决策函数，对于给定的输入$X$，由$f(X)$给出相应的输出$Y$，这个输出的预测值$f(X)$与真实值$Y$可能一致也可能不一致，用一个损失函数（loss function）或代价函数（cost function）来度量预测错误的程度。损失函数是$f(X)$和$Y$的非负实值函数,记作$L(Y,f(x))$。

统计学习常用以下几种损失函数：

（1）0-1损失函数（0-1 loss function）

$$ L(Y,f(X))=left{
egin{aligned}
1,Y e f(X) \
0,Y = f(X)
end{aligned}
ight.
$$

（2）平方损失函数（quadratic loss function）

$$L(Y,f(X))=(Y-f(X))^2$$

（3）绝对损失函数（absolute loss function）

$$L(Y,f(X))=|Y-f(X)|$$

（4）对数损失函数（logarithmic loss function）或对数似然函数（loglikelihood loss function）

$$L(Y,P(Y|X))=-logP(Y|X)$$

损失越小，模型越好。由于模型的输入输出$(X,Y)$都是随机变量，遵循联合分布$P(X,Y)$，所以损失函数的期望是$${R_{exp }}left( f ight) = Eleft[ {Lleft( {Y,fleft( X ight)} ight)} ight] = intlimits_{mathcal{X} imes mathcal{Y}} {Lleft( {y,fleft( x ight)} ight)Pleft( {x,y} ight)dxdy} $$这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失，称为风险函数（risk function）或期望损失（expected loss）。

学习的目标就是选择期望风险最小的模型。由于$P(X,Y)$未知，所以监督学习就成为一个病态问题（ill-formed problem）。

模型$f(X)$关于训练数据集的平均损失称为经验风险（empirical risk）或经验损失（empirical loss），记作$R_{emp}$:$${R_{emp}}left( f ight) = frac{1}{N}sumlimits_{i = 1}^N {Lleft( {{y_i},fleft( {{x_i}} ight)} ight)} $$根据大数定律，在样本$N$趋向于无穷时，经验风险趋于期望风险。由于现实中样本有限，所以要对经验风险进行矫正，因此关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

1.2.2 经验最小化与结构风险最小化

经验风险最小化即：$$mathop {min }limits_{f in mathcal{F}} frac{1}{N}sumlimits_{i = 1}^n {Lleft( {{y_i},fleft( {{x_i}} ight)} ight)} $$。训练样本较小时会产生过拟合现象（over-fitting），就是对已知数据预测效果很好，未知数据预测效果很差。

结构风险最小化（structual risk minimization，SRM）是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化（regularization）。结构风险在经验风险上加上模型复杂度的正则项（regularizer）或罚项（penalty term），其定义是：$${R_{srm}}left( f ight) = frac{1}{N}sumlimits_{i = 1}^N {Lleft( {{y_i},fleft( {{x_i}} ight)} ight) + lambda Jleft( f ight)} $$

1.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。这时，统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。

以上是关于统计学习三要素的主要内容，如果未能解决你的问题，请参考以下文章