核密度估计：带宽宽度选择——ROT 原则

Posted 2022-12-05 zhuo木鸟

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了核密度估计：带宽宽度选择——ROT 原则相关的知识，希望对你有一定的参考价值。

参考文献：
Density Estimation for Statistics and Data Analysis. B.W.Silverman

峰度定义：https://en.wikipedia.org/wiki/Kurtosis

偏度定义：https://en.wikipedia.org/wiki/Skewness

halvorsen 的博客：Numerical Integration in Python

在博客核密度估计：带宽宽度选择——原理阐述中，我们讨论了最佳带宽 $h$ 的选择原理，即使得 $IMSE(\\hatf)$ 最小， $\\hatf$ 为经验概率密度函数，是从随机向量（样本） $X=(X_1,X_2,\\cdots,X_n)$ 根据样本在各带宽下的频率估计而出的。

我们知道，在忽略 $o(h^4+(nh)^-1)$ 的前提下，我们得到最佳宽度的表达式为：
$h_opt = \\kappa_2^-2/5 \\kappa^1/5 \\\\int [f^(2)(x)]^2 dx \\^-1/5 n^-1/5$
其中：
$\\beginaligned \\kappa_2 =& \\int k(v) v^2 dv \\\\ \\kappa = & \\int k^2(v) dv \\endaligned$
上述公式中， $k (v)$ 为核函数，其常数表达式可为正态分布，在式中是已知的； $f (x)$ 为待估计的概率密度函数， $f^(2)(x)$ 为其二阶导数； $n$ 为样本容量。

可以看出， $h_opt$ 与 $f^(2)(x)$ 有关。

Rule of Thumb 方法

rule of thumb 方法也叫经验法，从上述分析中我们可以看出，由于 $h_opt$ 与 $f^(2)(x)$ 有关，而 $f (x)$ 是未知待求解的。但我们可以在求解窗口宽度 $h_opt$ 时，将 $f (x)$ 假设为一个已知函数，通常为方差为 $\\sigma^2$ 的正态分布，于是可以求解出：
$\\int f^(2)(x)^2 dx = \\sigma^-5 \\int \\phi^(2)(x)^2 dx = \\frac38\\pi^-1/2\\sigma^-5$
$\\Phi(x)$ 为正态分布， ~~$f (x)$ 的均值可以通过变量代换消掉~~ ，最终可以估计出 $\\int f^(2)(x)^2 dx \\approx 0.212\\sigma^-5$ 。

假设我们采用了标准正态分布作为核函数，那么就可以求解出最佳的窗口宽度 $h_opt$ 如下所示：
$\\beginaligned h_opt& = (\\frac43)^1/5 \\sigma n^-1/5 \\\\ &= 1.06 \\sigma n^-1/5 \\endaligned$
如果随机变量确实服从正态分布，那么使用此种方法得出的最佳带宽是比较准确的。但如果数据并非服从正态分布，而是服从某种多峰分布，得使用这种方法，会造成核密度估计的过分平滑，实际分布的细节会被 cover 掉。

我们也可以从 $h_opt$ 的定义中看出这一点： $f^(2)(x)$ 作为函数的二阶导数，它反映了函数的凹凸程度。在相同的方差下，正态分布的上凸或下凹的程度是明显大于多峰分布的¹。因此，若假设 $f (x)$ 是正态分布来求解 $h_opt$ ，会由于 $f^(2)(x)$ 较大，从而使得 $h$ 过大，造成过平滑。

另一些变种的方法如下：
$h_opt = 0.79 \\times \\textIQR n^-1/5$
和
$h_opt = 0.9 \\min(\\sigma, \\textnIQR) n^-1/5$