机器学习著名定理之—No Free Lunch定理详解

Posted 2022-02-27 鬼道2022

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了机器学习著名定理之—No Free Lunch定理详解相关的知识，希望对你有一定的参考价值。

引言

谈到机器学习一个非常著名的定理，那就不得不提No Free Lunch定理了。该定理核心思想是没有一种通用的学习算法可以在各种任务中都有很好的表现，需要对具体问题进行具体的分析。从原理出发去理解AI算法可以能够对AI相关的问题有更深刻的认识，像这种基于严格数学证明推导出的结论，尤其值得重视。翻阅了大量的相关材料力求让该定理的证明过程更加完整（需要注意的是该定理核心证明步骤中用到了一个修改版本的马尔可夫不等式），相关的材料列在文末。

No Free Lunch定理证明

定理（No Free Lunch）: 假定 $\\mathcalA$ 是一个在域 $\\mathcalX$ 的二分类任务中任意一个机器学习算法，其损失函数为 $0\\text-1$ 损失。令 $n$ 是一个大小为 $|\\mathcalX|/2$ 的训练集，存在域 $\\mathcalX$ 中的分布 $\\mathcalD$ ，则有
（1）存在一个函数 $f:\\mathcalX\\rightarrow \\0,1\\$ ，且有 $L_\\mathcalD(f)=0$ 。
（2）对于子列 $\\mathcalS\\sim D^n$ ，则概率不等式 $P(L_\\mathcalD(\\mathcalA(\\mathcalS))\\ge 1/8: \\mathcalS\\sim\\mathcalD^n)\\ge 1/7$ 成立。

证明：
（1）令 $\\mathcalC$ 表示域 $\\mathcalX$ 中大小为 $2 n$ 的一个子集。主要的证明思路是只利用数据集 $\\mathcalC$ 一半的数据样本点并不能给出剩下一半数据点的信息。假定 $\\mathcalH$ 表示数据集 $\\mathcalC$ 到标签集合 $\\0,1\\$ 所有可能的函数集合，且 $T$ 表示的是函数集合的基数，其中 $\\mathcalH=\\f_1,\\cdots,f_T\\$ ， $T=2^2n$ 。对于 $\\mathcalH$ 中每一个函数假设，令 $\\mathcalD_i$ 是 $\\mathcalC\\times\\0,1\\$ 中的分布 $\\mathcalD_i(\$x,y)\$=\\left\\\\beginarrayll1/2m & \\mathrmif\\text y=f_i(x)\\\\0& \\mathrmotherwise\\endarray\\right.$ 进而可知存在函数 $f_i$ ，在数据分布 $\\mathcalD_i$ 上则有 $L_\\mathcalD_i(f_i)=0$ 。
（2）主要证明的关键在于即对任意的学习算法 $\\mathcalA$ 有 $\\max\\limits_i \\in [T]\\mathbbE_\\mathcalS\\sim \\mathcalD_i^n[L_\\mathcalD_i(\\mathcalA(\\mathcalS))]\\ge 1 / 4$ 首先从 $\\mathcalC\\times \\0,1\\$ 中采样出 $n$ 个样本构造一个训练集，其中采样出的样本可以重复，进而可知有 $k=(2n)^n$ 中可能的样本序列。令这些样本序列分别表示为 $\\mathcalS_1,\\mathcalS_2,\\cdots,\\mathcalS_k$ 。 $\\mathcalS_j^i=((x_1,f_i(x_1)),\\cdots,(x_n,f_i(x_n)))$ 表示的是函数 $f_j$ 在样本序列 $S_j$ 中的数据集合，则有 $\\mathbbE_\\mathcalS\\sim \\mathcalD_i^n[L_\\mathcalD_i(\\mathcalA(\\mathcalS))]=\\frac1k\\sum\\limits_j=1^k L_\\mathcalD_i(\\mathcalA(\\mathcalS^i_j))$