Hoeffding不等式简介

Posted 分析101

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hoeffding不等式简介相关的知识,希望对你有一定的参考价值。

1 Hoeffding不等式

Hoeffding不等式是非常有用的一个不等式,在机器学习、统计学等领域,都发挥着巨大的作用。

它的思想与Markov不等式有些类似,我们先给出它的形式:

Hoeffding不等式\\(Y_1,\\ldots,Y_n\\)为独立观测,\\(E(Y_i)=0\\)\\(a_i\\leq Y_i\\leq b_i\\)。对于\\(\\epsilon\\gt 0\\)\\(\\forall t \\gt 0\\),有

\\[P(\\sum_{i=1}^{n} Y_i \\geq \\epsilon) \\leq e^{-t\\epsilon} \\prod_{i=1}^{n} e^{t^2 (b_i-a_i)^2/8} \\]

2 证明

首先,\\(\\forall t\\gt 0\\),利用Markov不等式,我们有

\\[\\begin{aligned} &P\\left(\\sum_{i=1}^{n} Y_i \\geq \\epsilon\\right)\\\\ = & P\\left(e^{t\\sum_{i=1}^{n} Y_i} \\geq e^{t\\epsilon}\\right)\\\\ \\leq & e^{-t\\epsilon} E\\left(e^{t\\sum_{i=1}^{n} Y_i} \\right)\\\\ = & e^{-t\\epsilon} \\prod_{i=1}^{n} E\\left(e^{t Y_i} \\right) \\end{aligned} \\]

而又由于\\(a_i\\leq Y_i\\leq b_i\\),我们可将\\(Y_i\\)表示为\\(Y_i=\\alpha b_i+(1-\\alpha)a_i\\),其中\\(\\alpha=\\dfrac{Y_i-a_i}{b_i-a_i}\\),利用Jensen不等式以及指数函数的凸性,有

\\[e^{tY}\\leq \\dfrac{Y_i-a_i}{b_i-a_i} e^{tb_i} + \\dfrac{b_i-Y_i}{b_i-a_i} e^{ta_i} \\]

两边取期望后,再构造一个函数\\(g(u)\\),可得

\\[E\\left(e^{tY}\\right) \\leq -\\dfrac{a_i}{b_i-a_i} e^{tb_i} + \\dfrac{b_i}{b_i-a_i} e^{ta_i} = e^{g(u)} \\]

其中\\(u=t(b_i-a_i)\\)\\(g(u)=-\\gamma u+\\log(1-\\gamma+\\gamma e^u)\\)\\(\\gamma=-\\dfrac{a_i}{b_i-a_i}\\)

我们可知\\(g(0)=g\'(0)=0\\),并且\\(\\forall u\\gt 0\\),有\\(g\'\'(u)\\leq 1/4\\)

现在,我们需要用到Taylor定理:若\\(g\\)为光滑函数,则\\(\\exists \\xi\\in(0,u)\\),使得\\(g(u)=g(0)+g\'(0)u+\\dfrac{1}{2}g\'\'(\\xi) u^2\\)。利用Taylor定理,必定\\(\\exists \\xi\\in (0,u)\\),使得

\\[\\begin{aligned} &g(u)\\\\ =& g(0)+g\'(0)u+\\dfrac{1}{2}g\'\'(\\xi) u^2\\\\ =& \\dfrac{1}{2}g\'\'(\\xi) u^2\\\\ \\leq & \\dfrac{u^2}{8}\\\\ =& \\dfrac{t^2(b_i-a_i)^2}{8} \\end{aligned} \\]

代回之后,我们有

\\[E\\left(e^{tY_i}\\right) \\leq e^{g(u)}\\leq e^{t^2(b_i-a_i)^2/8} \\]

代回最上式,得证。

3 Bernoulli分布情形

这里我们考虑一种特殊情况:Bernoulli分布。由于Bernoulli分布的随机变量是有界的,因此可以用Hoeffding不等式,该结论也可以看作是Hoeffding不等式的一种形式:

假设\\(X_1,\\ldots,X_n\\sim \\text{Bernoulli}(p)\\),记\\(\\bar{X}_n = n^{-1}\\sum_{i=1}^{n}X_i\\),则\\(\\forall \\epsilon \\gt 0\\),有

\\[P(|\\bar X_n - p|\\gt \\epsilon) \\leq 2e^{-2n\\epsilon^2} \\]

证明:令\\(Y_i=(1/n)(X_i-p)\\),有\\(E(Y_i)=0\\),且\\(a\\leq Y_i\\leq b\\),其中\\(a=-p/n\\)\\(b=(1-p)/n\\)。直接应用Hoeffding不等式,有\\(\\forall \\epsilon\\gt 0\\)\\(\\forall t \\gt 0\\):

\\[P(\\bar{X}_n -p \\geq \\epsilon) = P(\\sum_{i=1}^{n} Y_i \\geq \\epsilon) \\leq e^{-t\\epsilon} \\prod_{i=1}^{n} e^{t^2/(8n^2)} \\]

由于上式对于任意\\(t \\gt 0\\)都成立,取\\(t=4n\\epsilon\\),得到

\\[P(\\bar{X}_n -p \\geq \\epsilon) \\leq e^{-4n\\epsilon^2} \\prod_{i=1}^{n} e^{2\\epsilon^2} = e^{-2n\\epsilon^2} \\]

同理,若令\\(Y_i=(1/n)(p-X_i)\\),则有

\\[P(p-\\bar{X}_n \\geq \\epsilon) =P(\\bar{X}_n -p \\leq -\\epsilon) = e^{-2n\\epsilon^2} \\]

将两个不等式合并后,得证。

4 应用

我们来看一个简单的应用,目的是说明Hoeffding不等式的上限,可能会比如Chebyshev不等式等更紧。

假设\\(X_1,\\ldots,X_n\\sim \\text{Bernoulli}(p)\\),取\\(n=100\\)\\(\\epsilon=0.2\\),使用Chebyshev不等式,我们有

\\[P(|\\bar X_n - p|\\gt \\epsilon) \\leq \\dfrac{p(1-p)/n}{\\epsilon^2}\\leq 0.0625 \\]

而使用第3节中的Hoeffding不等式,有

\\[P(|\\bar X_n - p|\\gt \\epsilon) \\leq 0.00067 \\]

可以看到,Hoeffding不等式的上界要小得多。

以上是关于Hoeffding不等式简介的主要内容,如果未能解决你的问题,请参考以下文章

深度学习/机器学习入门基础数学知识整理:Hoeffding不等式,

2) Chernoff bound, Hoeffding's Lemma, Hoeffding's inequality

霍夫丁不等式与真实的机器学习

机器学习基石机器学习的可行性

4 理解机器为什么可以学习

VC维的来龙去脉(转载)