核密度估计:带宽宽度选择——ROT 原则

Posted zhuo木鸟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了核密度估计:带宽宽度选择——ROT 原则相关的知识,希望对你有一定的参考价值。

参考文献:
Density Estimation for Statistics and Data Analysis. B.W.Silverman

峰度定义:https://en.wikipedia.org/wiki/Kurtosis

偏度定义:https://en.wikipedia.org/wiki/Skewness

halvorsen 的博客:Numerical Integration in Python

在博客核密度估计:带宽宽度选择——原理阐述中,我们讨论了最佳带宽 h h h 的选择原理,即使得 I M S E ( f ^ ) IMSE(\\hat{f}) IMSE(f^) 最小, f ^ \\hat{f} f^ 为经验概率密度函数,是从随机向量(样本) X = ( X 1 , X 2 , ⋯   , X n ) X=(X_1,X_2,\\cdots,X_n) X=(X1,X2,,Xn) 根据样本在各带宽下的频率估计而出的。

我们知道,在忽略 o ( h 4 + ( n h ) − 1 ) o(h^4+(nh)^{-1}) o(h4+(nh)1) 的前提下,我们得到最佳宽度的表达式为:
h o p t = κ 2 − 2 / 5 κ 1 / 5 { ∫ [ f ( 2 ) ( x ) ] 2 d x } − 1 / 5 n − 1 / 5 h_{opt} = \\kappa_2^{-2/5} \\kappa^{1/5} \\{\\int [f^{(2)}(x)]^2 dx \\}^{-1/5} n^{-1/5} hopt=κ22/5κ1/5{[f(2)(x)]2dx}1/5n1/5
其中:
κ 2 = ∫ k ( v ) v 2 d v κ = ∫ k 2 ( v ) d v \\begin{aligned} \\kappa_2 =& \\int k(v) v^2 dv \\\\ \\kappa = & \\int k^2(v) dv \\end{aligned} κ2=κ=k(v)v2dvk2(v)dv
上述公式中, k ( v ) k(v) k(v) 为核函数,其常数表达式可为正态分布,在式中是已知的; f ( x ) f(x) f(x) 为待估计的概率密度函数, f ( 2 ) ( x ) f^{(2)}(x) f(2)(x) 为其二阶导数; n n n 为样本容量。

可以看出, h o p t h_{opt} hopt f ( 2 ) ( x ) f^{(2)}(x) f(2)(x) 有关。

Rule of Thumb 方法

rule of thumb 方法也叫经验法,从上述分析中我们可以看出,由于 h o p t h_{opt} hopt f ( 2 ) ( x ) f^{(2)}(x) f(2)(x) 有关,而 f ( x ) f(x) f(x) 是未知待求解的。但我们可以在求解窗口宽度 h o p t h_{opt} hopt 时,将 f ( x ) f(x) f(x) 假设为一个已知函数,通常为方差为 σ 2 \\sigma^2 σ2正态分布,于是可以求解出:
∫ f ( 2 ) ( x ) 2 d x = σ − 5 ∫ ϕ ( 2 ) ( x ) 2 d x = 3 8 π − 1 / 2 σ − 5 \\int f^{(2)}(x)^2 dx = \\sigma^{-5} \\int \\phi^{(2)}(x)^2 dx = \\frac{3}{8}\\pi^{-1/2}\\sigma^{-5} f(2)(x)2dx=σ5ϕ(2)(x)2dx=83π1/2σ5
Φ ( x ) \\Phi(x) Φ(x) 为正态分布, f ( x ) f(x) f(x) 的均值可以通过变量代换消掉 ,最终可以估计出 ∫ f ( 2 ) ( x ) 2 d x ≈ 0.212 σ − 5 \\int f^{(2)}(x)^2 dx \\approx 0.212\\sigma^{-5} f(2)(x)2dx0.212σ5

假设我们采用了标准正态分布作为核函数,那么就可以求解出最佳的窗口宽度 h o p t h_{opt} hopt 如下所示:
h o p t = ( 4 3 ) 1 / 5 σ n − 1 / 5 = 1.06 σ n − 1 / 5 \\begin{aligned} h_{opt}& = (\\frac{4}{3})^{1/5} \\sigma n^{-1/5} \\\\ &= 1.06 \\sigma n^{-1/5} \\end{aligned} hopt=(34)1/5σn1/5=1.06σn1/5
如果随机变量确实服从正态分布,那么使用此种方法得出的最佳带宽是比较准确的。但如果数据并非服从正态分布,而是服从某种多峰分布,得使用这种方法,会造成核密度估计的过分平滑,实际分布的细节会被 cover 掉。

我们也可以从 h o p t h_{opt} hopt 的定义中看出这一点: f ( 2 ) ( x ) f^{(2)}(x) f(2)(x) 作为函数的二阶导数,它反映了函数的凹凸程度。在相同的方差下,正态分布的上凸或下凹的程度是明显大于多峰分布的1。因此,若假设 f ( x ) f(x) f(x) 是正态分布来求解 h o p t h_{opt} hopt,会由于 f ( 2 ) ( x ) f^{(2)}(x) f(2)(x) 较大,从而使得 h h h 过大,造成过平滑。

另一些变种的方法如下:
h o p t = 0.79 × IQR n − 1 / 5 h_{opt} = 0.79 \\times \\text{IQR} n^{-1/5} hopt=0.79×IQRn1/5

h o p t = 0.9 min ⁡ ( σ , nIQR ) n − 1 / 5 h_{opt} = 0.9 \\min(\\sigma, \\text{nIQR}) n^{-1/5} hopt=0.9min(σ,nIQR)n核密度估计:带宽宽度选择——ROT 原则

核密度估计:带宽宽度选择——原理阐述

核密度估计:带宽宽度选择——原理阐述

核密度估计:带宽宽度选择——原理阐述

为核密度估计选择带宽和空间。 (为啥我的带宽不起作用?)

自适应带宽核密度估计