第12章 计算学习理论理解记录

Posted wyy_persist

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了第12章 计算学习理论理解记录相关的知识,希望对你有一定的参考价值。

12.1 基础知识

计算学习理论研究的是:通过计算来进行学习的理论。

目的是:为学习任务分析困难本质,为学习算法提供理论保证并根据分析结果指导算法设计。

给定样例集D = {(x1,y1),(x2,y2),(...)},xi属于X,本章基于二分类问题讨论。其中的yi属于(0,1)。假设X中的所有样本服从一个隐含未知的分布D,D中所有样本都是独立地从这个分布上采样得到的,即独立同分布样本.

令h是从X到Y的一个映射,其泛化误差为:

E(h;D) = Px ~ D (h(x) != y);

此外,h在D上的经验误差为:

E(h;D) = 1/m * 求和 (h(xi) != yi);

由于D是D上的独立同分布采样,那么上述的两个误差相等.

可以先设置模型需要满足的误差参数e,使得E()<=e.

如果h在D上的经验误差为0,那么称h与D一致.

对D上的不同的两个映射函数h1和h2来说,两者之间的不同可以度量两者之间的差别.d(h1,h2) = Px ~ D (h1(x) != h2(x));

上述的过程需要用到很多不等式:

Jensen不等式,Hoeffding不等式,McDiarmid不等式.

PAC学习:

其中最基本的理论是概率近似正确理论.

令c为概念.从样本空间X到标记空间y的映射,它决定示例x的真实标记y,若对任何样例(x,y)有c(x) = y成立,则称c为目标概念.所有希望学到的目标概念所构成的集合称为概念类。用大写的C表示。

给定学习算法e,其所考虑的所有可能概念的集合称为假设空间。用H表示。由于在H中的h由于不能确定是否是概念函数,那么称为假设。显然,h也是从样本空间X到标记空间Y的映射。

若目标概念c属于H,则H中存在假设能将所有示例按与真实标记一致的方式完全分开,那么称该学习算法e是可分的。也称为一致的。

若目标概念c不属于H,那么H中不存在任何假设可以将所有示例与真实标记一致的方式分开。那么称该学习算法e是不可分的也称为不一致的。

给定目标训练集D,基于学习算法e学得的模型对应的假设h尽可能接近目标概念c。由于机器学习过程中受到很多因素的制约。所以得到的模型只能是和目标概念相近的模型。

PAC辨识:

对0 < e,sigma < 1,所有c 属于 C和分布D,若存在学习算法k,其输出假设h属于H满足:

P(E(h)) <= sigma) >= 1 - sigma;

那么称该学习算法k能从假设空间H中PAC辨识得到概念类C。

定义PAC可学习:

令m表示从分布D中独立同分布采样得到的样例数目。0 < e,sigma < 1,所有分布D,若存在学习算法k和多项式函数ploy(),使得对任何m >= poly(),k能从假设空间H中PAC辨识概念类C,那么概念类C对假设空间H而言是PAC可学习的。有时,也称为概念类C是PAC可学习的。

定义PAC学习算法:

若学习算法k使概念类C为PAC可学习的且k的运行时间也是多项式函数poly(),那么称概念类C是高效PAC可学习的。称sigma为概念类C的PAC学习算法。

重点:假定学习算法k对每个样本的处理时间为常数,那么k的时间复杂度等价于样本的复杂度,所以对于k算法的关心就转化为了对样本复杂度的关心。

定义样本复杂度:

满足PAC学习算法k所需的m》poly()多项式函数,中最小的m,称学习算法k的样本复杂度。

PAC学习中一个关键的因素是假设空间H的复杂度。若在PAC学习中假设空间H与概念类C完全相同,那么称为恰PAC可学习。一般而言,若H越大,那么H中包含c目标概念的可能性越大。但是从H中找到某个具体目标概念难度也越大。|H|有限时,称H为有限假设空间。否则称H为无限假设空间。

12.3 有限假设空间

12.3.1 可分情形

可分情形意味着目标概念c属于假设空间H,即c属于H。

如果D是从目标概念c获得样例标记。且c存在于H中,那么任何在训练集D上出现标记错误的假设肯定不是目标概念c。那么对H的规模比较大的情况,可以不断使用D中的样本对H中的各个概念进行测试,逐渐减去H中和D表现不一致的假设,直到最后剩下的一个假设,就是目标概念c。

通常情况下,H中存在多个和D中表现一样的假设,那么此时再使用D集无法对假设模型函数进行更好的区分。

那么,先估计泛化误差大于e但是在训练集D上仍表现完美的假设出现的概率。假定h的泛化误差大于e,对分布D上随机采样而得到的任何样例(x,y),有:

P(h(x) = y) = 1 - P(h(x) != y) = 1 - E(h) < 1 - e;

那么由于h与D表现一致的概率为:P(h(x1) = y1 且 h(x2) = y2 且 ...) = (1-P(h(x) != y)) ^ m < (1-e)^m;

对于算法k会输出H中的哪个假设,但仅需要保证泛化误差大于e,且在训练集上表现完美的所有假设出现的概率之和不大于sigma。

P(h 属于 H;E(h) > e 且 E~(h) > 0) < |H| * (1-e)^m < |H| * e ^ (-m * t);

而后有:|H| * e ^ m * t <= sigma;

可得:m >= 1/e * (ln|H| + ln(1/sigma);

那么有先假设空间H都是可学习的。此时,输出假设h的泛化误差随阳历数目的增多而收敛到0,收敛速率为:O(1/m);

12.3.2 不可分情形

对困难的学习问题,目标概念c往往不存在于假设空间H中,那么对任何h属于H来说,由于H中的任意一个假设都会在训练集上出现或多或少的错误。那么有:

 

显然当c不属于H时,学习算法k无法学得目标概念c的e近似。

但是当H给定的时候,其中一定存在一个泛化误差最小的假设h。找到此假设h也是一个比价好的目标。H中泛化误差最小的目标概念h是:arg min h属于H E(h),于是该式可以作为PAC学习的目标。这种称为不可知学习。

不可知学习的定义:

12.4 VC维

现实学习任务中通常是无限假设空间。想要对这种情形的学习性进行研究,需度量假设空间H的复杂度。最常见的办法是考虑假设空间的VC维。

几个概念:增长函数,对分和打散。

随着m(这里的m是D中样本的数量)的增大,H中所有的假设对D中样本的赋予标记的可能结果数也会增大。

对m属于整数,假设空间H的增长函数为F H(m)为:

F H(m) = max{(h(x1),h(x2),...,h(xm)) | h 属于 H};

增长函数F H(m)表示假设空间H对m个示例所能赋予标记的最大可能结果数。

显然,该可能的结果数越大,H的表示能力越强。对学习任务的适应能力越强。所以增长函数F H(m)描述了假设空间H的表示能力。由此反映出来了假设空间的复杂度。

对二分类问题来说,H中的假设对D中示例赋予标记的每种可能结果称为D的一种对分。

若假设空间H能实现对D中的所有对分,那么增长函数F H(m)的值为2 ^ m,此时称为示例集D能被假设空间H打散。

正式定义VC维:

假设空间H的VC维是能被H打散的最大示例集D的大小m。但是这并不意味着所有的m大小的D集可以被H打散。

VC维的定义与数据分布D无关。

增长函数和VC维有密切的联系:

若假设空间H的VC维为d,则对任意m属于N来说,有:

增长函数 <= 求和 (m i) ^ T;

推论 若假设空间H的VC维为d,则对任意整数m >= d有:

增长函数 <= (e*m / d) ^ d;

定理 若假设空间H的VC维为d,那么对任意m > d,0 < sigma < 1和h属于H有:

 

所以,基于VC维的泛化误差界是分布无关、数据独立的。

此时,令h表示学习算法k输出的假设,那么若h满足:

E~(h) = min E^ (h’);

则称k为满足经验风险最小化(ERM)原则的算法。

定理 任何VC维有限的假设空间H都是(不可知)PAC可学习的。

上述最后的式子以最少1-sigma的概率成立,然后由上述的式12.32和12.34可以解出m,再由H的任意性可知上述定理得证。

12.5 Rademacher复杂度

该复杂度和VC维不考虑数据分布、数据独立不同,该方法考虑一定的数据分布。

详述:

给定训练集D,假设h的经验误差为:

E^(h) = 1/m * 求和(h(xi) != yi) =1/2 - 1/2m * 求和yi * h(xi);

其中的:1/m * 求和yi * h(xi)体现了预测值h(xi)与样例真实标记yi之间的一致性。

那么经验误差最小的假设是:arg max 1/m * 求和(yi * h(xi));

考虑随机变量sigma i ,以0.5的概率取值-1,以0.5的概率取值为:+1;那么,称该随机变量为Rademacher随机变量。那么基于该随机变量有,将上式写为:sup 1/m * 求和(sigma i * h(xi));考虑H中的所有假设,对上式取期望可得:

Esigma(上式);

该式体现了H假设空间的表达能力。当|H| = 1时,H中仅有一个假设。这时可以算出上式为0;当|H| = 2 ^ m时,且H打散D时,对任意的sigma总有一个假设使得h(xi)=sigma i;这时可以计算出上式的值为1。

将上式中的X和假设空间H替换为Z和F可得,函数空间F关于Z的经验Rademacher复杂度为:

R^z(F) = Esigma (sup 1/m * 求和(sigma i * f(z))),

经验Rademacher复杂度衡量了函数空间F与随机噪声在集合Z中的相关性。通常希望了解函数F在Z上关于分布D的相关性,因此,对所有从D独立同分布采样而得的大小为m的集合Z求期望可得。

定义:函数空间F关于Z上分布D的Rademacher复杂度。

 

基于上述的复杂度定义,可以得到关于函数空间F的泛化误差界:

定理:

对实值函数空间F:Z -> [0,1],根据分布D从Z中独立同分布采样得到示例集Z = {z1,z2,...,zi},zi属于Z,0 < sigma < 1,对任意f属于F,以至少1 - sigma的概率有下式:

 定理12.6:

对假设空间H:X -> {-1,+1},根据分布D从X中独立同分布采样得到示例集D = {x1,x2,...,xm},xi 属于 X,0 < sigma < 1,对任意h属于H,以至少1-sigam的概率有:

基于Rademacher复杂度的泛化误差边界依赖于具体学习问题上的数据分布,有点类似于为该学习问题“量身定制”的,因此它通常比VC维的泛化误差界更紧一些。

此外,关于Rademacher复杂度和增长函数,有如下定理:

 

12.6 稳定性

无论是基于VC维还是Rademancher复杂度来推导泛化误差界,所得到的结果均与具体的学习算法无关。对所有的学习算法都适用。

算法的稳定性考察的是:算法在输入发生变化时,输出是否会发生较大的变化。

给定集合D,xi属于X是来自分布D的独立同分布示例,yi = {-1,+1}。对假设空间H来说,X —> {-1.+1},和学习算法k,令kD属于H表示基于训练集D从假设空间H中学到的假设。其中,D有如下变化:

D/i表示移除D中第i个样例得到的集合。

D ^ i表示替换D中第i个样例得到的集合。

定义算法的均匀稳定性:

 

定理12.8:

定理12.9 若学习算法sigma是ERM稳定的,那么假设空间H可学习。

实际上,上述定理中是通过损失函数cost()来将学习算法sigma和假设空间H联系起来的。

以上是关于第12章 计算学习理论理解记录的主要内容,如果未能解决你的问题,请参考以下文章

深入理解计算机系统(第二版)----之一

第1章 1.7计算机网络概述--理解OSI参考模型分层思想

统计学习方法 李航---第1章 统计学习方法概论

软考《希赛教育·软件设计师考前冲刺与考点分析》计算机硬件基础知识——学习笔记

汇编语言第1章 基础知识

CAP理论?BASE模型?——NoSQL学习第一弹