近似 R 中二项式随机变量之和的分布

Posted

技术标签:

【中文标题】近似 R 中二项式随机变量之和的分布【英文标题】:Approximate the distribution of a sum of binomial random variables in R 【发布时间】:2013-04-02 07:54:53 【问题描述】:

我的目标是近似二项式变量总和的分布。 我使用 Ken Butler 和 Michael Stephens 的以下论文 The Distribution of a Sum of Binomial Random Variables。

我想编写一个 R 脚本来找到二项式总和的 Pearson 近似值。 有一个 R-package PearsonDS 允许以简单的方式执行此操作。

因此,我从论文中获取第一个示例,并尝试找出这种情况下 Pearson 分布的密度。 最后我收到一条错误消息“这些时刻没有概率分布”。

你能解释一下下面的代码有什么问题吗?

library(PearsonDS)

# 定义五个二项式随机变量的参数

n<-rep(5,5)
p<-seq(0.02,0.10,0.02)

# 找出前四个累积量

k.1<-sum(n*p)
k.2<-sum(n*p*(1-p))
k.3<-sum(n*p*(1-p)*(1-2*p))
k.4<-sum(n*p*(1-p)*(1-6*p*(1-p)))

# 求偏度和峰度参数

beta.1<-k.3^2/k.2^3
beta.2<-k.4/k.2^2

# 定义矩并计算

moments <- c(mean=k.1,variance=k.2,skewness=sqrt(beta.1),kurtosis=beta.2)
dpearson(1:7,moments=moments)

我收到错误消息“这些时刻没有概率分布”。

【问题讨论】:

从文档中我不清楚 dpearson 在您使用 moments 覆盖时如何确定分发类型。如果您知道要使用哪个发行版,请尝试直接使用所需的 dpearson[I thru VII] 函数。或者,确保您的所有 moments 参数都是合法的,例如方差>0 和实数。 @Carl,感谢您的回复。我已经更仔细地阅读了文档。 函数pearsonFitM确定分布类型。当峰度负 1 小于偏度时,将显示消息“这些矩不存在概率分布”。不幸的是,我不知道也找不到导致这种情况的原因。如果我放弃它,那么累积量定义了 PearsonI 分布。 抱歉,我打错了。无效条件的正确形式应该是峰度减1小于偏度的平方 【参考方案1】:

您尝试在瞬间插入的峰度实际上是超峰度,即kurtosis - 3。来自dpearson()的帮助页面:

时刻: 平均值、方差、偏度、峰度(不是过度峰度)的可选向量/列表。

所以将 3 添加到 beta.2 将为您提供真正的峰度:

beta.1 <- (k.3^2)/(k.2^3)
beta.2 <- k.4/(k.2^2)
kurt <- beta.2 + 3

moments <- c(mean = k.1, variance = k.2, skewness = beta.1, kurtosis = kurt)
dpearson(1:7, moments=moments)
# [1] 0.3438773545 0.2788412385 0.1295129534 0.0411140817 0.0099279576
# [6] 0.0019551512 0.0003294087

为了得到论文中的结果,我们应该研究累积分布函数并添加 0.5 来校正由连续分布逼近离散分布引起的偏差:

ppearson(1:7+0.5, moments = moments)
# [1] 0.5348017 0.8104394 0.9430092 0.9865434 0.9973715 0.9995578 0.9999339

一点背景资料:

函数抛出错误,因为峰度和偏度之间的关系并非无效:峰度以下列方式受偏度的下限:kurtosis &gt;= (skewness)^2 - 1。证明并不漂亮,当然超出了问题的范围,但如果您喜欢这个不等式的不同版本,可以查看下面的参考资料。

    威尔金斯,J.欧内斯特。关于偏度和峰度的注释。安。数学。统计学家。 15 (1944), 没有。 3、333--335。 http://projecteuclid.org/euclid.aoms/1177731243。 K.皮尔逊。对进化论的数学贡献,XIX;关于偏斜变化的回忆录的第二个补充。菲洛斯。反式。罗伊。社会党。伦敦爵士。 A, 216 (1916), p. 432http://rsta.royalsocietypublishing.org/content/216/538-548/429 皮尔逊,K.(1929 年)。 “对‘频率函数矩和各种统计常数的不等式’的编辑说明”。生物计量学。 21(1-4):361-375。 link

【讨论】:

这些数字似乎与表 3 中的 Pearson 近似值不匹配。您能对此发表评论吗?

以上是关于近似 R 中二项式随机变量之和的分布的主要内容,如果未能解决你的问题,请参考以下文章

概率论-常见分布

常用的概率分布:二项式分布,贝塔分布,狄里克雷分布

参数|统计量|抽样分布|估计标准误差|标准误差|标准误|标准差|二项分布|泊松分布|中心极限定理|样本方差|

人工智能数学基础--概率与统计10:离散随机变量的概率函数及常见的二项分布泊松分布

概率统计13——二项分布与多项分布

人工智能数学基础--概率与统计11:离散随机变量的超几何分布和负二项分布