理解Markov, Chebyshev, Chernoff概率不等式

Posted Jie Qiao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了理解Markov, Chebyshev, Chernoff概率不等式相关的知识,希望对你有一定的参考价值。

Markov inequality

若Y是非负随机变量,对于所有 y > 0 \\displaystyle y >0 y>0,都有

P r Y ≥ y ≤ E ⁡ [ Y ] y \\mathrmPr\\Y\\geq y\\ \\leq \\frac\\operatornameE[ Y]y PrYyyE[Y]

如上图, y P r Y ≥ y \\displaystyle y\\mathrmPr\\Y\\geq y\\ yPrYy是阴影部分的面积,而整个曲线下的面积是均值,所以,显然 y P r Y ≥ y ⩽ E [ Y ] \\displaystyle y\\mathrmPr\\Y\\geq y\\ \\leqslant E[ Y] yPrYyE[Y]

事实上,这个曲线下面积是均值只有在Y是非负随机变量才能成立,我们可以来验证一下:

P r Y ≥ y = 1 − F ( y ) \\mathrmPr\\Y\\geq y\\ =1-F( y) PrYy=1F(y)

其中 F ( y ) : = P ( Y ⩽ y ) \\displaystyle F( y) :=P( Y\\leqslant y) F(y):=P(Yy)是Y的累计分布函数,满足 F ( + ∞ ) = 1 \\displaystyle F( +\\infty ) =1 F(+)=1,于是

∫ 0 + ∞ P r Y ≥ y d y = ∫ 0 + ∞ ( 1 − F ( y ) ) d y = y ( 1 − F ( y ) ) ∣ 0 + ∞ + ∫ 0 + ∞ y f ( y ) d y = E [ y ] \\int ^+\\infty _0\\mathrmPr\\Y\\geq y\\ dy=\\int ^+\\infty _0( 1-F( y)) dy=y( 1-F( y)) |^+\\infty _0 +\\int ^+\\infty _0 yf( y) dy=E[ y] 0+PrYydy=0+(1F(y))dy=y(1F(y))0++0+yf(y)dy=E[y]

显然,y不是非负的时候,积分可以取到 − ∞ \\displaystyle -\\infty ,这时候 y ( 1 − F ( y ) ) \\displaystyle y( 1-F( y)) y(1F(y))就会发散,不再等于0了。

Chebyshev inequality

既然Markov inequality只能用于非负变量,那对于那些可以取负值的随机变量咋办?其实我们可以对随机变量取平方或者绝对值让他变成非负的,最典型的做法是,令 Y = ( Z − E [ Z ] ) 2 \\displaystyle Y=( Z-E[ Z])^2 Y=(ZE[Z])2,这时候Y就是一个非负随机变量了,于是

P r ( Z − E [ Z ] ) 2 ≥ y ≤ E ⁡ [ ( Z − E [ Z ] ) 2 ] y = σ z 2 y \\mathrmPr\\left\\( Z-E[ Z])^2 \\geq y\\right\\ \\leq \\frac\\operatornameE\\left[( Z-E[ Z])^2\\right]y =\\frac\\sigma ^2_zy Pr(ZE[Z])2yyE[(ZE[Z])2]=yσz2

我们将 y \\displaystyle y y换成 ϵ 2 \\displaystyle \\epsilon ^2 ϵ2,于是 ( Z − E [ Z ] ) 2 ≥ ϵ 2 ⟹ ∣ Z − E [ Z ] ∣ ⩾ ϵ \\displaystyle ( Z-E[ Z])^2 \\geq \\epsilon ^2 \\Longrightarrow |Z-E[ Z] |\\geqslant \\epsilon (ZE[Z])2ϵ2ZE[Z]ϵ,于是

P r ∣ Z − E [ Z ] ∣ ≥ ϵ ≤ σ z 2 ϵ 2 \\mathrmPr\\|Z-E[ Z] |\\geq \\epsilon \\ \\leq \\frac\\sigma ^2_z\\epsilon ^2 PrZE[Z]ϵϵ2σz2

这就是Chebyshev inequality. 而且当 Z = ( X 1 + . . . + X n ) / n \\displaystyle Z=( X_1 +...+X_n) /n Z=(X1+...+Xn)/n表示样本均值的时候,该不等式可以被用来证明weak law of large numbers.

Chernoff bounds

显然,除了评分和绝对值之外,因为指数也是一个非负函数,所以当 Y = e Z r \\displaystyle Y=e^Zr Y=eZr时,

P r e Z r ≥ y ≤ E ⁡ [ e Z r ] y \\mathrmPr\\left\\e^Zr \\geq y\\right\\ \\leq \\frac\\operatornameE\\left[ e^Zr\\right]y PreZryyE[eZr]

如果我们用 e r b \\displaystyle e^rb erb来代替 y \\displaystyle y y会更有意义。注意到,当 e Z r ⩾ e r b \\displaystyle e^Zr \\geqslant e^rb eZrerb时。若 r > 0 \\displaystyle r >0 r>0则等价于 Z ⩾ b \\displaystyle Z\\geqslant b Zb,否则 Z < b \\displaystyle Z< b Z<b. 因此,对于任意的实数b,我们有

P r Z ≥ b ≤ E ⁡ [ e Z r ] e r b r > 0 P r Z ≤ b ≤ E ⁡ [ e Z r ] e r b r < 0 \\beginarray c c c \\mathrmPr\\Z\\geq b\\ \\leq \\frac\\operatornameE\\left[ e^Zr\\right]e^rb & & r >0\\\\ \\mathrmPr\\Z\\leq b\\ \\leq \\frac\\operatornameE\\left[ e^Zr\\right]e^rb & & r< 0 \\endarray PrZberbE[e以上是关于理解Markov, Chebyshev, Chernoff概率不等式的主要内容,如果未能解决你的问题,请参考以下文章

理解Markov, Chebyshev, Chernoff概率不等式

(Python)Markov,Chebyshev,Chernoff上界函数

理解闭包

漫谈:Chebyshev多项式,Krylov子空间,Chebyshev迭代,共轭梯度方法

(Python) 马尔科夫、切比雪夫、切尔诺夫上限函数

从马尔可夫模型(Markov model)到卡尔曼滤波(Kalman filtering)