核密度估计:带宽宽度选择——ROT 原则

Posted zhuo木鸟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了核密度估计:带宽宽度选择——ROT 原则相关的知识,希望对你有一定的参考价值。

参考文献:
Density Estimation for Statistics and Data Analysis. B.W.Silverman

峰度定义:https://en.wikipedia.org/wiki/Kurtosis

偏度定义:https://en.wikipedia.org/wiki/Skewness

halvorsen 的博客:Numerical Integration in Python

在博客核密度估计:带宽宽度选择——原理阐述中,我们讨论了最佳带宽 h h h 的选择原理,即使得 I M S E ( f ^ ) IMSE(\\hatf) IMSE(f^) 最小, f ^ \\hatf f^ 为经验概率密度函数,是从随机向量(样本) X = ( X 1 , X 2 , ⋯   , X n ) X=(X_1,X_2,\\cdots,X_n) X=(X1,X2,,Xn) 根据样本在各带宽下的频率估计而出的。

我们知道,在忽略 o ( h 4 + ( n h ) − 1 ) o(h^4+(nh)^-1) o(h4+(nh)1) 的前提下,我们得到最佳宽度的表达式为:
h o p t = κ 2 − 2 / 5 κ 1 / 5 ∫ [ f ( 2 ) ( x ) ] 2 d x − 1 / 5 n − 1 / 5 h_opt = \\kappa_2^-2/5 \\kappa^1/5 \\\\int [f^(2)(x)]^2 dx \\^-1/5 n^-1/5 hopt=κ22/5κ1/5[f(2)(x)]2dx1/5n1/5
其中:
κ 2 = ∫ k ( v ) v 2 d v κ = ∫ k 2 ( v ) d v \\beginaligned \\kappa_2 =& \\int k(v) v^2 dv \\\\ \\kappa = & \\int k^2(v) dv \\endaligned κ2=κ=k(v)v2dvk2(v)dv
上述公式中, k ( v ) k(v) k(v) 为核函数,其常数表达式可为正态分布,在式中是已知的; f ( x ) f(x) f(x) 为待估计的概率密度函数, f ( 2 ) ( x ) f^(2)(x) f(2)(x) 为其二阶导数; n n n 为样本容量。

可以看出, h o p t h_opt hopt f ( 2 ) ( x ) f^(2)(x) f(2)(x) 有关。

Rule of Thumb 方法

rule of thumb 方法也叫经验法,从上述分析中我们可以看出,由于 h o p t h_opt hopt f ( 2 ) ( x ) f^(2)(x) f(2)(x) 有关,而 f ( x ) f(x) f(x) 是未知待求解的。但我们可以在求解窗口宽度 h o p t h_opt hopt 时,将 f ( x ) f(x) f(x) 假设为一个已知函数,通常为方差为 σ 2 \\sigma^2 σ2正态分布,于是可以求解出:
∫ f ( 2 ) ( x ) 2 d x = σ − 5 ∫ ϕ ( 2 ) ( x ) 2 d x = 3 8 π − 1 / 2 σ − 5 \\int f^(2)(x)^2 dx = \\sigma^-5 \\int \\phi^(2)(x)^2 dx = \\frac38\\pi^-1/2\\sigma^-5 f(2)(x)2dx=σ5ϕ(2)(x)2dx=83π1/2σ5
Φ ( x ) \\Phi(x) Φ(x) 为正态分布, f ( x ) f(x) f(x) 的均值可以通过变量代换消掉 ,最终可以估计出 ∫ f ( 2 ) ( x ) 2 d x ≈ 0.212 σ − 5 \\int f^(2)(x)^2 dx \\approx 0.212\\sigma^-5 f(2)(x)2dx0.212σ5

假设我们采用了标准正态分布作为核函数,那么就可以求解出最佳的窗口宽度 h o p t h_opt hopt 如下所示:
h o p t = ( 4 3 ) 1 / 5 σ n − 1 / 5 = 1.06 σ n − 1 / 5 \\beginaligned h_opt& = (\\frac43)^1/5 \\sigma n^-1/5 \\\\ &= 1.06 \\sigma n^-1/5 \\endaligned hopt=(34)1/5σn1/5=1.06σn1/5
如果随机变量确实服从正态分布,那么使用此种方法得出的最佳带宽是比较准确的。但如果数据并非服从正态分布,而是服从某种多峰分布,得使用这种方法,会造成核密度估计的过分平滑,实际分布的细节会被 cover 掉。

我们也可以从 h o p t h_opt hopt 的定义中看出这一点: f ( 2 ) ( x ) f^(2)(x) f(2)(x) 作为函数的二阶导数,它反映了函数的凹凸程度。在相同的方差下,正态分布的上凸或下凹的程度是明显大于多峰分布的1。因此,若假设 f ( x ) f(x) f(x) 是正态分布来求解 h o p t h_opt hopt,会由于 f ( 2 ) ( x ) f^(2)(x) f(2)(x) 较大,从而使得 h h h 过大,造成过平滑。

另一些变种的方法如下:
h o p t = 0.79 × IQR n − 1 / 5 h_opt = 0.79 \\times \\textIQR n^-1/5 hopt=0.79×IQRn1/5

h o p t = 0.9 min ⁡ ( σ , nIQR ) n − 1 / 5 h_opt = 0.9 \\min(\\sigma, \\textnIQR) n^-1/5 hopt=0.9min(σ,nIQR)n核密度估计:带宽宽度选择——ROT 原则

核密度估计:带宽宽度选择——原理阐述

核密度估计:带宽宽度选择——原理阐述

核密度估计:带宽宽度选择——原理阐述

为核密度估计选择带宽和空间。 (为啥我的带宽不起作用?)

自适应带宽核密度估计