自助(bootstrap)法和刀切(Jackknife)法

Posted 达尔文的眼睛

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自助(bootstrap)法和刀切(Jackknife)法相关的知识,希望对你有一定的参考价值。

   自助世界
     自助世界是基于样本的经验分布函数从给定样本集重采样获得。
     1979年Standford大学统计系的Bradley Efron在统计学刊物《The Annals of Statistics》上发表了开创性论文—“自助法: 从另一个角度看刀切法(Bootstrap Methods:Another Look at the Jackknife)”。发表过程具有戏剧性,最初,杂志编辑毫不客气地拒绝了这篇文章,理由是“太简单”,目前,这个方法的影响可从有影响的重要杂志发表有关文章上得到证实:从1982年开始几乎在每个数理统计期刊上都刊登一篇或者多篇与自助法相关的文章。并且关于自助法主题的论文也不断出现在计算机学科的杂志上。
     刀切法


     1949年,Quenouille提出了刀切法,这是近代重采样方法的标志,以后,由Quenouille(1949,1956)和Tukey(1958)不断完善,重采样方法成为统计学的重要方法之一。

     刀切法的原始动机是降低估计的偏差。常用做法是:每次从样本集中删除一个或者几个样本,剩余的样本成为“刀切”样本,由一系列这样的刀切样本计算统计量的估计值。从这一批估计值,不但可以得到算法的稳定性衡量(方差),还可以减少算法的偏差。这个方法暗示,刀切法的样本集需要事先给定,即,它的重采样过程是在给定样本集上的采样过程.
     自助法和刀切法


     Efron1979年文章指出了自助法与刀切法的关系。首先,自助法通过经验分布函数构建了自助法世界,将不适定的估计概率分布的问题转化为从给定样本集中重采样。第二,自助法可以解决不光滑参数的问题。遇到不光滑(Smooth)参数估计时,刀切法会失效,而自助法可以有效地给出中位数的估计。第三,将自助法估计用泰勒公式展开,可以得到刀切法是自助法方法的一阶近似。第四,对于线性统计量的估计方差这个问题,刀切法或者自助法会得到同样的结果。但在非线性统计量的方差估计问题上,刀切法严重依赖于统计量线性的拟合程度,所以远不如自助法有效。
     估计中位数一例:
     Efron指出刀切法在估计中位数时会失效,而自助法可以有效地给出中位数的估计。用老鼠数据的例子来说明,9个排好序的样本分别为:
                                   10,27,31,40,46,50,52,104,146
     这个样本集的中位数是46(样本个数是奇数,中位数为最中间位置的样本)。如果改变第四个样本 ,当增加至并且超过46,中位数才会改变,之前中位数不改变。当样本从46继续增加直至50,中位数和此样本值相同,超过50之后,中位数变为50。使用一阶刀切法估计中位数,先去掉第一个样本 ,剩余8个样本的中位数是48(46与50的算术平均值),依次去掉相应的第 个样本,得到如下中位数估计结果:
                                   48,48,48,48,45,43,43,43,43
     刀切法只得到3个不同的中位数估计,方差较大。而自助法的采样方法使得样本集变化较大,会得到比较敏感的中位数变化。并且,在大样本性质上,中位数的刀切法估计的标准差是不相合的(不能收敛到真实的标准差)。而自助估计是相合的。

以上是关于自助(bootstrap)法和刀切(Jackknife)法的主要内容,如果未能解决你的问题,请参考以下文章

R语言与点估计学习笔记(EM算法与Bootstrap法)

episode23:Bootstrap自助法

自助法(bootstrap)在统计检验中的应用及R语言实现过程

非参数bootstrap方法详解

R语言置换检验(permutation tests响应变量是否独立于组两个数值变量是独立的吗两个分类变量是独立的吗)置换检验的基本步骤R语言自助法Bootstrapping计算置信区间

随机森林中的Bootstrap抽样是有放回抽样么?Bootstrap抽样过程描述一下