经验分布函数简介

Posted 分析101

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了经验分布函数简介相关的知识,希望对你有一定的参考价值。

1 概念

如果我们想知道某个随机变量\\(X\\)的分布\\(F\\),这在一般情况下当然是无法准确知道的,但如果我们手上有它的一些独立同分布的样本,可不可以利用这些样本?一个很简单的办法就是,把这些样本的“频率”近似为随机变量的“概率”。

经验分布函数empirical distribution function):给每个点\\(1/n\\)的概率质量,得到CDF:

\\[\\hat{F}_n(x) = \\dfrac{\\sum_{i=1}^{n}I(X_i\\leq x)}{n} \\]

2 性质

经验分布函数,有什么性质?它可以很好地近似真实的分布函数吗?我们给出如下几个定理。

定理:对于任意给定的\\(x\\),有

  • \\(E(\\hat{F}_n(x) )=F(x)\\)
  • \\(V(\\hat{F}_n(x) )=\\dfrac{F(x)(1-F(x))}{n}\\to 0\\)
  • \\(\\text{MSE} = \\dfrac{F(x)(1-F(x))}{n}\\to 0\\)
  • \\(\\hat{F}_n(x)\\stackrel{P}{\\longrightarrow}F(x)\\)

Glivenko-Cantelli定理\\(X_1,\\ldots,X_n\\sim F\\),那么

\\[\\sup_x |\\hat{F}_n(x)-F(x)|\\stackrel{P}{\\longrightarrow}0 \\]

更准确地说,上式其实是几乎必然收敛的。

Dvoretzky-Kiefer-Wolfowitz (DKW) Inequity\\(X_1,\\ldots,X_n\\sim F\\),那么\\(\\forall \\epsilon\\gt 0\\),有

\\[P\\left(\\sup_x |\\hat{F}_n(x)-F(x)|\\gt \\epsilon\\right) \\leq 2e^{-2n\\epsilon^2} \\]

利用DKW不等式,可以构造出\\(F\\)的非参数的\\(1-\\alpha\\)置信带:定义\\(L(x)=\\max\\left\\{\\hat{F}_n(x)-\\epsilon_n,0\\right\\}\\)\\(U(x)=\\max\\left\\{\\hat{F}_n(x)+\\epsilon_n,0\\right\\}\\),其中\\(\\epsilon_n=\\sqrt{\\dfrac{1}{2n}\\log(\\dfrac{2}{\\alpha})}\\),那么有

\\[P[L(x)\\leq F(x)\\leq U(x),\\forall x] \\geq 1-\\alpha \\]

3 应用

经验分布函数有什么用?它可以用来计算一些statistical functional(统计泛函)。

假设要计算的statistical functional为\\(T(F)\\),那么,可以利用经验分布函数,代替未知的分布函数,计算出\\(\\theta=T(F)\\)plug-in estimator(嵌入式估计量):\\(\\hat\\theta=T(\\hat{F}_n)\\)

如果存在某个\\(r(x)\\)使得\\(T(F)=\\int r(x) dF(x)\\),那么\\(T\\)就称为linear functional(线性泛函),这是因为这样的\\(T\\)必定满足\\(T(aF+bG)=aT(F)+bT(G)\\)。对于这样的linear functional \\(T(F)\\),它的plug-in estimator可以写为:

\\[T(\\hat{F}_n)=\\int r(x)d \\hat{F}_n=\\dfrac{1}{n}\\sum_{i=1}^{n}r(X_i) \\]

以上是关于经验分布函数简介的主要内容,如果未能解决你的问题,请参考以下文章

R语言ggplot2可视化使用stat_ecdf函数可视化一个分布的ECDF经验累积概率分布函数图(Simple ECDF Plot with ggplot2)

DataScience之boxcox:scipy.stats.boxcox函数的简介案例应用(将非正态分布数据转换为正态分布数据)之详细攻略

MySQL窗口_分布、前后、头尾函数

怎么通过一组数据拟合出总体分布

Hadoop2.2.0伪分布式之MapReduce简介

各个模型的损失函数