第12章 计算学习理论理解记录
Posted wyy_persist
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第12章 计算学习理论理解记录相关的知识,希望对你有一定的参考价值。
12.1 基础知识
计算学习理论研究的是:通过计算来进行学习的理论。
目的是:为学习任务分析困难本质,为学习算法提供理论保证并根据分析结果指导算法设计。
给定样例集D = {(x1,y1),(x2,y2),(...)},xi属于X,本章基于二分类问题讨论。其中的yi属于(0,1)。假设X中的所有样本服从一个隐含未知的分布D,D中所有样本都是独立地从这个分布上采样得到的,即独立同分布样本.
令h是从X到Y的一个映射,其泛化误差为:
E(h;D) = Px ~ D (h(x) != y);
此外,h在D上的经验误差为:
E(h;D) = 1/m * 求和 (h(xi) != yi);
由于D是D上的独立同分布采样,那么上述的两个误差相等.
可以先设置模型需要满足的误差参数e,使得E()<=e.
如果h在D上的经验误差为0,那么称h与D一致.
对D上的不同的两个映射函数h1和h2来说,两者之间的不同可以度量两者之间的差别.d(h1,h2) = Px ~ D (h1(x) != h2(x));
上述的过程需要用到很多不等式:
Jensen不等式,Hoeffding不等式,McDiarmid不等式.
PAC学习:
其中最基本的理论是概率近似正确理论.
令c为概念.从样本空间X到标记空间y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x) = y成立,则称c为目标概念.所有希望学到的目标概念所构成的集合称为概念类。用大写的C表示。
给定学习算法e,其所考虑的所有可能概念的集合称为假设空间。用H表示。由于在H中的h由于不能确定是否是概念函数,那么称为假设。显然,h也是从样本空间X到标记空间Y的映射。
若目标概念c属于H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,那么称该学习算法e是可分的。也称为一致的。
若目标概念c不属于H,那么H中不存在任何假设可以将所有示例与真实标记一致的方式分开。那么称该学习算法e是不可分的也称为不一致的。
给定目标训练集D,基于学习算法e学得的模型对应的假设h尽可能接近目标概念c。由于机器学习过程中受到很多因素的制约。所以得到的模型只能是和目标概念相近的模型。
PAC辨识:
对0 < e,sigma < 1,所有c 属于 C和分布D,若存在学习算法k,其输出假设h属于H满足:
P(E(h)) <= sigma) >= 1 - sigma;
那么称该学习算法k能从假设空间H中PAC辨识得到概念类C。
定义PAC可学习:
令m表示从分布D中独立同分布采样得到的样例数目。0 < e,sigma < 1,所有分布D,若存在学习算法k和多项式函数ploy(),使得对任何m >= poly(),k能从假设空间H中PAC辨识概念类C,那么概念类C对假设空间H而言是PAC可学习的。有时,也称为概念类C是PAC可学习的。
定义PAC学习算法:
若学习算法k使概念类C为PAC可学习的且k的运行时间也是多项式函数poly(),那么称概念类C是高效PAC可学习的。称sigma为概念类C的PAC学习算法。
重点:假定学习算法k对每个样本的处理时间为常数,那么k的时间复杂度等价于样本的复杂度,所以对于k算法的关心就转化为了对样本复杂度的关心。
定义样本复杂度:
满足PAC学习算法k所需的m》poly()多项式函数,中最小的m,称学习算法k的样本复杂度。
PAC学习中一个关键的因素是假设空间H的复杂度。若在PAC学习中假设空间H与概念类C完全相同,那么称为恰PAC可学习。一般而言,若H越大,那么H中包含c目标概念的可能性越大。但是从H中找到某个具体目标概念难度也越大。|H|有限时,称H为有限假设空间。否则称H为无限假设空间。
12.3 有限假设空间
12.3.1 可分情形
可分情形意味着目标概念c属于假设空间H,即c属于H。
如果D是从目标概念c获得样例标记。且c存在于H中,那么任何在训练集D上出现标记错误的假设肯定不是目标概念c。那么对H的规模比较大的情况,可以不断使用D中的样本对H中的各个概念进行测试,逐渐减去H中和D表现不一致的假设,直到最后剩下的一个假设,就是目标概念c。
通常情况下,H中存在多个和D中表现一样的假设,那么此时再使用D集无法对假设模型函数进行更好的区分。
那么,先估计泛化误差大于e但是在训练集D上仍表现完美的假设出现的概率。假定h的泛化误差大于e,对分布D上随机采样而得到的任何样例(x,y),有:
P(h(x) = y) = 1 - P(h(x) != y) = 1 - E(h) < 1 - e;
那么由于h与D表现一致的概率为:P(h(x1) = y1 且 h(x2) = y2 且 ...) = (1-P(h(x) != y)) ^ m < (1-e)^m;
对于算法k会输出H中的哪个假设,但仅需要保证泛化误差大于e,且在训练集上表现完美的所有假设出现的概率之和不大于sigma。
P(h 属于 H;E(h) > e 且 E~(h) > 0) < |H| * (1-e)^m < |H| * e ^ (-m * t);
而后有:|H| * e ^ m * t <= sigma;
可得:m >= 1/e * (ln|H| + ln(1/sigma);
那么有先假设空间H都是可学习的。此时,输出假设h的泛化误差随阳历数目的增多而收敛到0,收敛速率为:O(1/m);
12.3.2 不可分情形
对困难的学习问题,目标概念c往往不存在于假设空间H中,那么对任何h属于H来说,由于H中的任意一个假设都会在训练集上出现或多或少的错误。那么有:
显然当c不属于H时,学习算法k无法学得目标概念c的e近似。
但是当H给定的时候,其中一定存在一个泛化误差最小的假设h。找到此假设h也是一个比价好的目标。H中泛化误差最小的目标概念h是:arg min h属于H E(h),于是该式可以作为PAC学习的目标。这种称为不可知学习。
不可知学习的定义:
12.4 VC维
现实学习任务中通常是无限假设空间。想要对这种情形的学习性进行研究,需度量假设空间H的复杂度。最常见的办法是考虑假设空间的VC维。
几个概念:增长函数,对分和打散。
随着m(这里的m是D中样本的数量)的增大,H中所有的假设对D中样本的赋予标记的可能结果数也会增大。
对m属于整数,假设空间H的增长函数为F H(m)为:
F H(m) = max{(h(x1),h(x2),...,h(xm)) | h 属于 H};
增长函数F H(m)表示假设空间H对m个示例所能赋予标记的最大可能结果数。
显然,该可能的结果数越大,H的表示能力越强。对学习任务的适应能力越强。所以增长函数F H(m)描述了假设空间H的表示能力。由此反映出来了假设空间的复杂度。
对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为D的一种对分。
若假设空间H能实现对D中的所有对分,那么增长函数F H(m)的值为2 ^ m,此时称为示例集D能被假设空间H打散。
正式定义VC维:
假设空间H的VC维是能被H打散的最大示例集D的大小m。但是这并不意味着所有的m大小的D集可以被H打散。
VC维的定义与数据分布D无关。
增长函数和VC维有密切的联系:
若假设空间H的VC维为d,则对任意m属于N来说,有:
增长函数 <= 求和 (m i) ^ T;
推论 若假设空间H的VC维为d,则对任意整数m >= d有:
增长函数 <= (e*m / d) ^ d;
定理 若假设空间H的VC维为d,那么对任意m > d,0 < sigma < 1和h属于H有:
所以,基于VC维的泛化误差界是分布无关、数据独立的。
此时,令h表示学习算法k输出的假设,那么若h满足:
E~(h) = min E^ (h’);
则称k为满足经验风险最小化(ERM)原则的算法。
定理 任何VC维有限的假设空间H都是(不可知)PAC可学习的。
上述最后的式子以最少1-sigma的概率成立,然后由上述的式12.32和12.34可以解出m,再由H的任意性可知上述定理得证。
12.5 Rademacher复杂度
该复杂度和VC维不考虑数据分布、数据独立不同,该方法考虑一定的数据分布。
详述:
给定训练集D,假设h的经验误差为:
E^(h) = 1/m * 求和(h(xi) != yi) =1/2 - 1/2m * 求和yi * h(xi);
其中的:1/m * 求和yi * h(xi)体现了预测值h(xi)与样例真实标记yi之间的一致性。
那么经验误差最小的假设是:arg max 1/m * 求和(yi * h(xi));
考虑随机变量sigma i ,以0.5的概率取值-1,以0.5的概率取值为:+1;那么,称该随机变量为Rademacher随机变量。那么基于该随机变量有,将上式写为:sup 1/m * 求和(sigma i * h(xi));考虑H中的所有假设,对上式取期望可得:
Esigma(上式);
该式体现了H假设空间的表达能力。当|H| = 1时,H中仅有一个假设。这时可以算出上式为0;当|H| = 2 ^ m时,且H打散D时,对任意的sigma总有一个假设使得h(xi)=sigma i;这时可以计算出上式的值为1。
将上式中的X和假设空间H替换为Z和F可得,函数空间F关于Z的经验Rademacher复杂度为:
R^z(F) = Esigma (sup 1/m * 求和(sigma i * f(z))),
经验Rademacher复杂度衡量了函数空间F与随机噪声在集合Z中的相关性。通常希望了解函数F在Z上关于分布D的相关性,因此,对所有从D独立同分布采样而得的大小为m的集合Z求期望可得。
定义:函数空间F关于Z上分布D的Rademacher复杂度。
基于上述的复杂度定义,可以得到关于函数空间F的泛化误差界:
定理:
对实值函数空间F:Z -> [0,1],根据分布D从Z中独立同分布采样得到示例集Z = {z1,z2,...,zi},zi属于Z,0 < sigma < 1,对任意f属于F,以至少1 - sigma的概率有下式:
定理12.6:
对假设空间H:X -> {-1,+1},根据分布D从X中独立同分布采样得到示例集D = {x1,x2,...,xm},xi 属于 X,0 < sigma < 1,对任意h属于H,以至少1-sigam的概率有:
基于Rademacher复杂度的泛化误差边界依赖于具体学习问题上的数据分布,有点类似于为该学习问题“量身定制”的,因此它通常比VC维的泛化误差界更紧一些。
此外,关于Rademacher复杂度和增长函数,有如下定理:
12.6 稳定性
无论是基于VC维还是Rademancher复杂度来推导泛化误差界,所得到的结果均与具体的学习算法无关。对所有的学习算法都适用。
算法的稳定性考察的是:算法在输入发生变化时,输出是否会发生较大的变化。
给定集合D,xi属于X是来自分布D的独立同分布示例,yi = {-1,+1}。对假设空间H来说,X —> {-1.+1},和学习算法k,令kD属于H表示基于训练集D从假设空间H中学到的假设。其中,D有如下变化:
D/i表示移除D中第i个样例得到的集合。
D ^ i表示替换D中第i个样例得到的集合。
定义算法的均匀稳定性:
定理12.8:
定理12.9 若学习算法sigma是ERM稳定的,那么假设空间H可学习。
实际上,上述定理中是通过损失函数cost()来将学习算法sigma和假设空间H联系起来的。
以上是关于第12章 计算学习理论理解记录的主要内容,如果未能解决你的问题,请参考以下文章