核密度估计:带宽宽度选择——原理阐述

Posted zhuo木鸟

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了核密度估计:带宽宽度选择——原理阐述相关的知识,希望对你有一定的参考价值。

参考文献:

  1. 维基百科 kernel density estimation:https://en.wikipedia.org/wiki/Kernel_density_estimation#Bandwidth_selection
  2. 维基百科 little o notation:https://en.wikipedia.org/wiki/Big_O_notation#Little-o_notation
  3. 林斯顿大学一本不知名的书的第一章(主要参考)
  4. Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis,London: Chapman and Hall (书,不是论文,主要参考)
  5. A Brief Survey of Bandwidth Selectionfor Density Estimation M. C. JONES, J. S. MARRON, and S. J. SHEATHER

核密度估计定义

在很多问题中,我们可能需要找到某个独立同分布数据集 X = ( X 1 , X 2 , ⋯   , X n ) X = (X_1, X_2, \\cdots, X_n) X=(X1,X2,,Xn) 的分布。此时可以采用参数估计或非参数估计的方法。

参数估计方法

对于参数估计来说,首先需要假设数据集的分布族是已知的:例如我们可以假设数据集属于正态分布,但正态分布的参数是未知的,因此我们需要从原始数据集中导出正态分布的参数 μ , σ \\mu, \\sigma μ,σ,即使事实上原始数据的分布并不是正态的。

为了求解正态分布的参数 μ , σ \\mu, \\sigma μ,σ,我们采用极大似然法:在独立同分布的情况下,数据集 X X X 的联合概率分布是各随机变量 X i X_i Xi 的概率密度的简单乘积:
f ( X 1 , … , X n ) = ∏ i = 1 n 1 2 π σ 2 e − ( X i − μ ) 2 2 σ 2 = 1 ( 2 π σ 2 ) n / 2 e − 1 2 σ 2 ∑ i = 1 n ( X i − μ ) 2 f\\left(X_{1}, \\ldots, X_{n}\\right)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi \\sigma^{2}}} e^{-\\frac{\\left(X_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}}=\\frac{1}{\\left(2 \\pi \\sigma^{2}\\right)^{n / 2}} e^{-\\frac{1}{2 \\sigma^{2}} \\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)^{2}} f(X1,,Xn)=i=1n2πσ2 1e2σ2(Xiμ)2=(2πσ2)n/21e2σ21i=1n(Xiμ)2
在理想状态下,我们应该求出一个 μ , σ \\mu, \\sigma μ,σ,使得 f ( X 1 , X 2 , ⋯   , X n , μ , σ ) f(X_1, X_2, \\cdots, X_n, \\mu, \\sigma) f(X1,X2,,Xn,μ,σ) ,也即联合概率分布最大,很容易得出:
μ ^ = 1 n ∑ i = 1 n X i          σ ^ 2 = 1 n ∑ i = 1 n ( X i − μ ^ ) 2 \\hat{\\mu} = \\frac{1}{n} \\sum_{i=1}^n X_i \\text{ ~~~~~~ } \\hat{\\sigma}^2 = \\frac{1}{n} \\sum_{i=1}^n (X_i - \\hat{\\mu})^2 μ^=n1i=1nXi        σ^2=n1i=1n(Xiμ^)2
很显然,这种参数估计的方法的一个最致命的缺点就在于,需要事前假设出数据集的所属分布,这在很多情况下是无法做到的,因此就诞生了一种非参数估计的方法。

非参数估计方法

累计分布函数的定义为 F ( x ) = P ( X ≤ x ) F(x) = P(X \\leq x) F(x)=P(Xx),对于一个数据集来说,我们可以用频率去代替概率,于是可以估计累计分布函数:
F n ( x ) = 小于 x 的样本数量 n F_n(x)= \\frac{\\text{小于} x \\text{的样本数量}}{n} Fn(x)=n小于x的样本数量
由于概率密度函数:
f ( x ) = lim ⁡ h → 0 F ( x + h ) − F ( x − h ) 2 h f(x) = \\lim_{h\\to 0} \\frac{F(x+h) - F(x-h)}{2h} f(x)=h0lim2hF(x+h)F(xh)
于是我们也可以用频率去估计概率密度函数:
f ^ ( x ) = 1 2 n h { 落在 [ x − h , x + h ] 的样本数量 } \\hat{f}(x) = \\frac{1}{2nh} \\{\\text{落在} [x-h, x+h] \\text{的样本数量} \\} f^(x)=2nh1{落在[xh,x+h]的样本数量}
其中 h h h 为带宽宽度,或者又叫窗口宽度。若我们定义一个均匀分布的核函数 k ( x ) k(x) k(x),如下所示:
k ( x ) = { 1 / 2  if  ∣ x ∣ ≤ 1 0  otherwise  k(x)= \\begin{cases}1 / 2 & \\text { if }|x| \\leq 1 \\\\ 0 & \\text { otherwise }\\end{cases} k(x)={1/20 if x1 otherwise 
于是我们便可以将上述的 f n ( x ) f_n(x) fn(核密度估计:带宽宽度选择——原理阐述

核密度估计:带宽宽度选择——ROT 原则

核密度估计:带宽宽度选择——ROT 原则

核密度估计:带宽宽度选择——ROT 原则

为核密度估计选择带宽和空间。 (为啥我的带宽不起作用?)

自适应带宽核密度估计