scipy.stats :高斯核密度估计器中的带宽因子

Posted

技术标签:

【中文标题】scipy.stats :高斯核密度估计器中的带宽因子【英文标题】:scipy.stats : bandwidth factor in gaussian kernel density estimator 【发布时间】:2021-07-11 06:02:14 【问题描述】:

我生成了一个二维高斯分布(不相关的数据)

dist2=np.array([np.random.normal(loc=10,scale=3, size=50000),np.random.normal(loc=5,scale=2, size=50000)])

我计算了协方差矩阵除以带宽因子,因为协方差属性是数据集的协方差矩阵,由计算的带宽 (kde.factor) 缩放 (https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.gaussian_kde.html)

from scipy.stats import kde
# Use a kernel density estimator to produce local-counts in this space, and grid them to plot.
k = kde.gaussian_kde(dist2)
k.covariance/k.factor

对角元素不是预期的 sigma 的平方。

我认为我对这个带宽因素有些不理解。

任何解释将不胜感激。感谢您的帮助。

【问题讨论】:

这里实现了协方差因子,使得k.covariance/k.factor**2 ~ np.cov(dist2)。见这里***.com/questions/23630515/… @MaxPierini。感谢您的评论,这是一个答案。 添加了答案 【参考方案1】:

scipy.stats.kde.gaussian_kde 中实现了协方差因子,因此k.covariance / k.factor**2 是~ 到np.cov(dist2)

详情请看这里Getting bandwidth used by SciPy's gaussian_kde function

【讨论】:

以上是关于scipy.stats :高斯核密度估计器中的带宽因子的主要内容,如果未能解决你的问题,请参考以下文章

如何估计密度函数并计算其峰值?

如何估计密度函数并计算其峰值?

R中的高斯核密度估计

自适应带宽核密度估计

为核密度估计选择带宽和空间。 (为啥我的带宽不起作用?)

核密度估计:带宽宽度选择——原理阐述