理论机器学习

Posted 2020-10-22 yunfeng_net

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了理论机器学习相关的知识，希望对你有一定的参考价值。

简介

可学习理论针对于监督学习，从问题空间$X\times Y$中采样，输出一个预测函数$h:X\to Y$，来判定X与Y之间的对应关系。

主要难点在于：

采样空间S需要多大，太大则不现实，太小则不能达到足够的精度；如果问题有着强烈的结构，那么小的样本空间是可能的。
预测函数h的精确度，太低不能满足要求，太高则有可能不能有效覆盖整个问题空间，也就是欠拟合和过拟合。另外不同领域中，预测函数的结构有很大差别，也就是会有不同的预测/假设函数类。
实际应用中，精确度函数，或者说损失函数L，也是影响学习过程的重要因素。例如凸函数可以降低时间复杂度，还可以抑制过拟合问题。

因此学习问题定义为一个三元组$(S,H,L)$。未知数据分布$(x,y)\sim D$的情况下，可学习理论给出了得到预测函数集合中最优函数，需要的样本复杂度。

PAC可学习

已知：领域集$X\sim D$，标签集$Y$，标记函数$f:X\to Y$
学习器输入：训练集$S:X\times Y$
学习器输出： $h:X\to Y$
错误率： $L_{D,f}(h)\overset{def}{=}P_{x\sim D}[h(x)\neq f(x)]\overset{def}{=}D(\{x|h(x)\neq f(x)\})$
训练误差： $L_S(h)\overset{def}{=}\frac{1}{m}|\{i\in [m]|h(x_i)\neq y_i\}|$
假设类H：提前选择的预测器集合
经验风险最小化 ERM： $h_*=\arg\min_{h\in H}L_S(h)$
iid 假设：训练集中的样本根据分布 D，独立同分布。
样本复杂度：$m_H:(0,1)\times(0,1)\to N$
可实现假设：$\exists h\in H(L_{D,f}(h)=0)$

定义：$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D[\exists h\in H(L_{D,f}(h)=0)\wedge m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D,f}(A(S)\leqslant\epsilon)\geqslant 1-\delta]$

任一有限假设类H为PAC可学习，采样复杂度满足：$m_H(\epsilon,\delta)\leqslant\left \lceil \frac{\log(|H|)}{\epsilon\delta} \right \rceil$

不可知PAC可学习

已知：领域标签集$X\times Y\sim D$
学习器输入：训练集$S:X\times Y$
学习器输出： $h:X\to Y$
错误率： $L_{D}(h)\overset{def}{=}P_{(x,y)\sim D}[h(x)\neq y]\overset{def}{=}D(\{(x,y)|h(x)\neq y\})$
训练误差： $L_S(h)\overset{def}{=}\frac{1}{m}|\{i\in [m]|h(x_i)\neq y_i\}|$
假设类H：提前选择的预测器集合
经验风险最小化 ERM： $h_*=\arg\min_{h\in H}L_S(h)$
iid 假设：训练集中的样本根据分布 D，独立同分布。
样本复杂度：$m_H:(0,1)\times(0,1)\to N$

定义：$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h‘\in H}L_D(h‘)+\epsilon)\geqslant 1-\delta$

定理：[没有免费的午餐]
对实例空间 X上0-1损失的二分任务，令 A 表示任意的学习算法。样本大小 m 表示小于|X|/2的任意数，则在$X\times\{0,1\}$上存在一个分布 D，使得：存在一个函数$f:X\to\{0,1\}$满足$L_D(f)=0$；在样本集$S\sim D^m$上，以至少$\frac{1}{7}$的概率满足 $L_D(A(S))\geqslant \frac{1}{8}$。每个学习器，都存在一个任务使其失败。

VC维：H 可以打散的最大集合的大小。

打散：如果限制 H 在 C 上是从 C 到$\{0，1\}$的所有函数的集合，则称 H 打散了有限集 H,此时$|H_C|=2^{|C|}$。

一致收敛(H)：$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D,m\geqslant m_H(\epsilon,\delta)\Rightarrow P(L_{D}(A(S))\leqslant\min_{h‘\in H}L_D(h‘)+\epsilon)\geqslant 1-\delta$$

定理：二分类问题的等价性：一致收敛$\iff$不可知PAC可学习$\iff$VCdim有限

不一致可学习

样本复杂度：$m_H:(0,1)\times(0,1)\times H\to N$

定义：$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$

定理：二分类问题的假设类 H是不一致可学习$\iff$H 为不可知PAC可学习的可数并
定理：[结构风险最小化SRM]设$$S\sim D^m,\sum_nw(n)\leqslant 1, H=\bigcup_nH_n,\epsilon_n(m,\delta)=min\{\epsilon\in(0,1):m_{H_n}(\epsilon,\delta)\leqslant m\}$$ $$[\forall\delta\forall n\forall h\in H_n,P(|L_D(h)-L_S(h)|\leqslant\epsilon_n(m,w(n)\delta))\geqslant 1-\delta]\Rightarrow [\forall\delta\forall D\forall h\in H, L_D(h)\leqslant L_S(h)+\min_{n:h\in H}\epsilon_n(m,w(n)\delta) ]$$

一致收敛$(H,2^D)$：$$\exists m_H\exists A,\forall\epsilon\forall\delta\forall D\forall h,m\geqslant m_H(\epsilon,\delta,h,D),S\sim D^m\Rightarrow P(L_D(A(S))\leqslant L_D(h)+\epsilon)\geqslant 1-\delta$$

凸学习问题

凸学习问题：假设类$H$为凸集，损失函数$L$对样本$s$为凸函数，则学习问题$(H,L,S)$为凸的。

可学习性

$\rho-$利普希茨性：$f:R^d\to R^k,\exists \rho\forall w_1\forall w_2, \left \| f(w_1)-f(w_2) \right \|\leqslant \rho \left \| w_1-w_2 \right \| $

光滑性：$\bigtriangledown f$具有$\rho-$利普希茨性

假设类有界：$\exists B\forall h\in H \left \| h \right \|\leqslant B$

学习问题$(H,L,S)$为凸利普希茨有界：$(H,L,S)$为凸$\wedge H$有界$\wedge L$为利普希茨

学习问题$(H,L,S)$为凸光滑有界：$(H,L,S)$为凸$\wedge H$有界$\wedge L$为非负、光滑

正则性与稳定性

正则损失最小化$RLM:\arg\min_h(L_D(h)+R(h)),R:R^d\to R$

Tikhonov 正则化：$R(h)=\lambda \left \| h \right \|^2$

岭回归为不可知 PAC 可学习器

换一稳定：$S^{(i)})$替换了S 的第 i 个样本，$\epsilon:N\to R$是一个单调递减函数。一个学习算法 A 是在比率$\epsilon(m)$下的换一稳定，如果$$E_{(S,z‘)\sim D^{m+1},i\sim U(m)}[L(A(S^{(i)}),z_i)-L(A(S),z_i)]\leqslant \epsilon(m)$$

$\lambda-$强凸函数：$f(au+(1-a)v)\leqslant af(u)+(1-a)f(v)-\frac{\lambda}{2}a(1-a)\left \| u-v\right \|^2$

$f(h)=\lambda \left \| h \right \|^2$是$2\lambda-$强凸函数
f 是$\lambda-$强凸函数，g是凸函数，f+g 是$\lambda-$强凸函数
f 是$\lambda-$强凸函数，如果 u 是 f 的一个极小值，那么$f(h)-f(u)\geqslant \frac{\lambda}{2}\left \| h-u\right \|^2$

定理：学习问题$(H,L,S)$为凸利普希茨，那么Tikhonov 正则化的 RLM 是比率为$\frac{2\rho^2}{\lambda m}$的换一稳定。

定理：学习问题$(H,L,S)$为凸光滑，$\exists C\forall s(L(0,s)\leqslant C)$，那么Tikhonov 正则化的 RLM 是比率为$\frac{48\rho C}{\lambda m}$的换一稳定。

随机梯度下降SGD

定理：对于梯度下降法GD，$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t$，有$\sum_t <w^{(t)}-w^*,\nu_t>\leqslant \frac{\left \| w^* \right \|^2}{2\eta}+\frac{\eta}{2}\sum_t\left \| \nu_t \right \|^2$

次梯度：f是凸函数$\iff \forall w\exists v\forall u,f(u)-f(w)\geqslant <u-w,v>$，v称为f在w处的次梯度，其集合记作$\partial f(w)$。

定理：A为开凸集，f为A上凸函数，f为凸利普希茨$\iff \forall w\in A\forall v\in \partial f(w),\left \| v \right \|\leqslant\rho$

随机梯度下降法SGD，$w^{(1)}=0, w^{(t+1)}=w^{(t)}-\eta \nu_t, E[\nu_t|w^{(t)}]\in\partial f(w)$，f为凸函数，h有界B，$\nu$有界$\rho$，则$E[f(\bar{w})]-f(w^*)\leqslant\frac{B\rho}{\sqrt T}$

对于ERM，如果损失函数$L_S$的梯度是真实损失$L_D$梯度的无偏估计，则通过SGD可依概率收敛。
对于凸光滑学习问题，SGD收敛。

不等式

马尔可夫不等式，$$For\,X\geqslant 0, \forall a>0,P[Z\geqslant a]\leqslant \frac{E[Z]}{a}$$
切比雪夫不等式$$\forall a>0,P[|Z-E[Z]|\geqslant a]=P[(Z-E[Z])^2\geqslant a^2]\leqslant \frac{Var[Z]}{a^2}$$
Hoeffding不等式：设 $X\in[a,b]$是一个随机变量，$E[X]=0$ $$\forall \lambda>0, E[exp(\lambda X)]\leqslant \exp(\frac{\lambda^2(b-a)^2}{8})$$ $$ P[|\frac{1}{m}\sum_iZ_i-\mu|>\epsilon]\leqslant 2\exp(-\frac{2m\epsilon^2}{(b-a)^2})$$
Bennet不等式：假设$Z_i$为独立随机变量，均值为0，$P(Z_i\leqslant 1)=1$ $$\sigma^2\geqslant \frac{1}{m}\sum_i E[Z_i^2]$$
Bernsein不等式：假设$Z_i$为独立随机变量，均值为0$$\forall i,P(Z_i\leqslant M)=1\Rightarrow \forall t>0, P[\sum Z_i>t]\leqslant \exp(-\frac{t^2}{\sum E Z_j^2+Mt/3})$$
Slud不等式$$X\sim (m,p),p=\frac{1-\epsilon}{2}\Rightarrow P[X\leqslant \frac{m}{2}]\leqslant \frac{1}{2}(1-\sqrt{1-\exp(-\frac{m\epsilon^2}{1-\epsilon^2})})$$
$\chi^2$随机变量的集中度$$P[Z\leqslant(1-\epsilon)k]\leqslant \exp(-\frac{\epsilon^2k}{6}) $$

参考文献

Shai Shalev-Shwartz, etal, Understanding Machine Learning: From Theory to Algorithms, Cambridge University Press, 2014

以上是关于理论机器学习的主要内容，如果未能解决你的问题，请参考以下文章

Python深度学习：机器学习理论知识，包含信息熵的计算（读书笔记）

《分布式机器学习：算法理论与实践》——RE

《分布式机器学习：算法理论与实践》PDF+刘铁岩+资料学习

《机器学习理论方法及应用》研读

01机器学习应用及理论分类

浅说机器学习理论