如何在python中计算正态累积分布函数的倒数?

Posted

技术标签:

【中文标题】如何在python中计算正态累积分布函数的倒数?【英文标题】:How to calculate the inverse of the normal cumulative distribution function in python? 【发布时间】:2014-01-04 19:01:17 【问题描述】:

如何在 Python 中计算正态分布的累积分布函数 (CDF) 的逆?

我应该使用哪个库?可能是scipy?

【问题讨论】:

你是指逆高斯分布(en.wikipedia.org/wiki/Inverse_Gaussian_distribution),还是正态分布的累积分布函数的逆(en.wikipedia.org/wiki/Normal_distribution),还是别的什么? @WarrenWeckesser第二个:正态分布的累积分布函数的逆 @WarrenWeckesser 我的意思是excel中“normsinv”函数的python版本。 【参考方案1】:

NORMSINV(在评论中提到)是标准正态分布的 CDF 的倒数。使用scipy,您可以使用scipy.stats.norm 对象的ppf 方法计算它。首字母缩略词ppf 代表percent point function,这是quantile function 的另一个名称。

In [20]: from scipy.stats import norm

In [21]: norm.ppf(0.95)
Out[21]: 1.6448536269514722

检查它是否是 CDF 的逆:

In [34]: norm.cdf(norm.ppf(0.95))
Out[34]: 0.94999999999999996

默认情况下,norm.ppf 使用 mean=0 和 stddev=1,这是“标准”正态分布。您可以通过分别指定 locscale 参数来使用不同的均值和标准差。

In [35]: norm.ppf(0.95, loc=10, scale=2)
Out[35]: 13.289707253902945

如果您查看scipy.stats.norm 的源代码,您会发现ppf 方法最终调用了scipy.special.ndtri。因此,要计算标准正态分布的 CDF 的倒数,您可以直接使用该函数:

In [43]: from scipy.special import ndtri

In [44]: ndtri(0.95)
Out[44]: 1.6448536269514722

【讨论】:

我一直认为“百分点函数”(ppf)是一个糟糕的名字。大多数统计人员只使用“分位数函数”。 您不需要在 ppf 和 cdf 上指定均值和标准吗? @bones.felipe,“标准”正态分布的均值为 0,标准差为 1。这些是scipy.stats.norm 方法的位置和尺度的默认值。 对,我以为我看到了这个norm.cdf(norm.ppf(0.95, loc=10, scale=2)),我觉得很奇怪norm.cdf 没有loc=10scale=2,我想应该是这样。【参考方案2】:
# given random variable X (house price) with population muy = 60, sigma = 40
import scipy as sc
import scipy.stats as sct
sc.version.full_version # 0.15.1

#a. Find P(X<50)
sct.norm.cdf(x=50,loc=60,scale=40) # 0.4012936743170763

#b. Find P(X>=50)
sct.norm.sf(x=50,loc=60,scale=40) # 0.5987063256829237

#c. Find P(60<=X<=80)
sct.norm.cdf(x=80,loc=60,scale=40) - sct.norm.cdf(x=60,loc=60,scale=40)

#d. how much top most 5% expensive house cost at least? or find x where P(X>=x) = 0.05
sct.norm.isf(q=0.05,loc=60,scale=40)

#e. how much top most 5% cheapest house cost at least? or find x where P(X<=x) = 0.05
sct.norm.ppf(q=0.05,loc=60,scale=40)

【讨论】:

PS: 你可以假设 'loc' 为 'mean' 而 'scale' 为 'standard deviation'【参考方案3】:

Python 3.8 开始,标准库提供NormalDist 对象作为statistics 模块的一部分。

可以用来得到逆累积分布函数inv_cdf - cdf的逆),也称为作为给定均值 (mu)和标准差分位数函数百分比函数 (sigma):

from statistics import NormalDist

NormalDist(mu=10, sigma=2).inv_cdf(0.95)
# 13.289707253902943

这可以简化为标准正态分布mu = 0sigma = 1):

NormalDist().inv_cdf(0.95)
# 1.6448536269514715

【讨论】:

很棒的提示!这允许我放弃对 scipy 的依赖,我只需要单个 stats.norm.ppf 方法

以上是关于如何在python中计算正态累积分布函数的倒数?的主要内容,如果未能解决你的问题,请参考以下文章

如何计算累积正态分布?

标准正态分布的累积密度函数

在 Python 中计算累积分布函数 (CDF)

JavaScript中的分位数/百分点/百分位数/逆累积分布函数

如何计算给定均值和标准差的正态分布中的概率?

如何使用韦伯分布函数