统计学习三要素
Posted 0xcafe
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计学习三要素相关的知识,希望对你有一定的参考价值。
原文链接:https://www.mlpod.com/mlbase/23.html
三要素:方法=模型+策略+算法。
1.1 模型
在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。假设空间用$mathcal{F}$表示,假设空间可以定义为$$mathcal{F} = left{ {f|Y = {f_ heta }left( X ight), heta in {mathbb{R}^n}} ight}$$或$$mathcal{F} = left{ {P|{P_ heta }left( {Y|X} ight), heta in {mathbb{R}^n}} ight}$$,$ heta$为参数向量。
1.2 策略
1.2.1 损失函数和风险函数
监督学习问题是在假设空间$mathcal{F}$中选取模型$f$作为决策函数,对于给定的输入$X$,由$f(X)$给出相应的输出$Y$,这个输出的预测值$f(X)$与真实值$Y$可能一致也可能不一致,用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。损失函数是$f(X)$和$Y$的非负实值函数,记作$L(Y,f(x))$。
统计学习常用以下几种损失函数:
(1)0-1损失函数(0-1 loss function)
$$ L(Y,f(X))=left{
egin{aligned}
1,Y
e f(X) \
0,Y = f(X)
end{aligned}
ight.
$$
(2)平方损失函数(quadratic loss function)
$$L(Y,f(X))=(Y-f(X))^2$$
(3)绝对损失函数(absolute loss function)
$$L(Y,f(X))=|Y-f(X)|$$
(4)对数损失函数(logarithmic loss function)或对数似然函数(loglikelihood loss function)
$$L(Y,P(Y|X))=-logP(Y|X)$$
损失越小,模型越好。由于模型的输入输出$(X,Y)$都是随机变量,遵循联合分布$P(X,Y)$,所以损失函数的期望是$${R_{exp }}left( f ight) = Eleft[ {Lleft( {Y,fleft( X ight)} ight)} ight] = intlimits_{mathcal{X} imes mathcal{Y}} {Lleft( {y,fleft( x ight)} ight)Pleft( {x,y} ight)dxdy} $$这是理论上模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)。
学习的目标就是选择期望风险最小的模型。由于$P(X,Y)$未知,所以监督学习就成为一个病态问题(ill-formed problem)。
模型$f(X)$关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作$R_{emp}$:$${R_{emp}}left( f ight) = frac{1}{N}sumlimits_{i = 1}^N {Lleft( {{y_i},fleft( {{x_i}} ight)} ight)} $$根据大数定律,在样本$N$趋向于无穷时,经验风险趋于期望风险。由于现实中样本有限,所以要对经验风险进行矫正,因此关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
1.2.2 经验最小化与结构风险最小化
经验风险最小化即:$$mathop {min }limits_{f in mathcal{F}} frac{1}{N}sumlimits_{i = 1}^n {Lleft( {{y_i},fleft( {{x_i}} ight)} ight)} $$。训练样本较小时会产生过拟合现象(over-fitting),就是对已知数据预测效果很好,未知数据预测效果很差。
结构风险最小化(structual risk minimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上模型复杂度的正则项(regularizer)或罚项(penalty term),其定义是:$${R_{srm}}left( f ight) = frac{1}{N}sumlimits_{i = 1}^N {Lleft( {{y_i},fleft( {{x_i}} ight)} ight) + lambda Jleft( f ight)} $$
1.3 算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。
以上是关于统计学习三要素的主要内容,如果未能解决你的问题,请参考以下文章