核密度估计:带宽宽度选择——原理阐述
Posted zhuo木鸟
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了核密度估计:带宽宽度选择——原理阐述相关的知识,希望对你有一定的参考价值。
文章目录
参考文献:
- 维基百科 kernel density estimation:https://en.wikipedia.org/wiki/Kernel_density_estimation#Bandwidth_selection
- 维基百科 little o notation:https://en.wikipedia.org/wiki/Big_O_notation#Little-o_notation
- 林斯顿大学一本不知名的书的第一章(主要参考)
- Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis,London: Chapman and Hall (书,不是论文,主要参考)
- A Brief Survey of Bandwidth Selectionfor Density Estimation M. C. JONES, J. S. MARRON, and S. J. SHEATHER
核密度估计定义
在很多问题中,我们可能需要找到某个独立同分布数据集 X = ( X 1 , X 2 , ⋯ , X n ) X = (X_1, X_2, \\cdots, X_n) X=(X1,X2,⋯,Xn) 的分布。此时可以采用参数估计或非参数估计的方法。
参数估计方法
对于参数估计来说,首先需要假设数据集的分布族是已知的:例如我们可以假设数据集属于正态分布,但正态分布的参数是未知的,因此我们需要从原始数据集中导出正态分布的参数 μ , σ \\mu, \\sigma μ,σ,即使事实上原始数据的分布并不是正态的。
为了求解正态分布的参数
μ
,
σ
\\mu, \\sigma
μ,σ,我们采用极大似然法:在独立同分布的情况下,数据集
X
X
X 的联合概率分布是各随机变量
X
i
X_i
Xi 的概率密度的简单乘积:
f
(
X
1
,
…
,
X
n
)
=
∏
i
=
1
n
1
2
π
σ
2
e
−
(
X
i
−
μ
)
2
2
σ
2
=
1
(
2
π
σ
2
)
n
/
2
e
−
1
2
σ
2
∑
i
=
1
n
(
X
i
−
μ
)
2
f\\left(X_{1}, \\ldots, X_{n}\\right)=\\prod_{i=1}^{n} \\frac{1}{\\sqrt{2 \\pi \\sigma^{2}}} e^{-\\frac{\\left(X_{i}-\\mu\\right)^{2}}{2 \\sigma^{2}}}=\\frac{1}{\\left(2 \\pi \\sigma^{2}\\right)^{n / 2}} e^{-\\frac{1}{2 \\sigma^{2}} \\sum_{i=1}^{n}\\left(X_{i}-\\mu\\right)^{2}}
f(X1,…,Xn)=i=1∏n2πσ21e−2σ2(Xi−μ)2=(2πσ2)n/21e−2σ21∑i=1n(Xi−μ)2
在理想状态下,我们应该求出一个
μ
,
σ
\\mu, \\sigma
μ,σ,使得
f
(
X
1
,
X
2
,
⋯
,
X
n
,
μ
,
σ
)
f(X_1, X_2, \\cdots, X_n, \\mu, \\sigma)
f(X1,X2,⋯,Xn,μ,σ) ,也即联合概率分布最大,很容易得出:
μ
^
=
1
n
∑
i
=
1
n
X
i
σ
^
2
=
1
n
∑
i
=
1
n
(
X
i
−
μ
^
)
2
\\hat{\\mu} = \\frac{1}{n} \\sum_{i=1}^n X_i \\text{ ~~~~~~ } \\hat{\\sigma}^2 = \\frac{1}{n} \\sum_{i=1}^n (X_i - \\hat{\\mu})^2
μ^=n1i=1∑nXi σ^2=n1i=1∑n(Xi−μ^)2
很显然,这种参数估计的方法的一个最致命的缺点就在于,需要事前假设出数据集的所属分布,这在很多情况下是无法做到的,因此就诞生了一种非参数估计的方法。
非参数估计方法
累计分布函数的定义为
F
(
x
)
=
P
(
X
≤
x
)
F(x) = P(X \\leq x)
F(x)=P(X≤x),对于一个数据集来说,我们可以用频率去代替概率,于是可以估计累计分布函数:
F
n
(
x
)
=
小于
x
的样本数量
n
F_n(x)= \\frac{\\text{小于} x \\text{的样本数量}}{n}
Fn(x)=n小于x的样本数量
由于概率密度函数:
f
(
x
)
=
lim
h
→
0
F
(
x
+
h
)
−
F
(
x
−
h
)
2
h
f(x) = \\lim_{h\\to 0} \\frac{F(x+h) - F(x-h)}{2h}
f(x)=h→0lim2hF(x+h)−F(x−h)
于是我们也可以用频率去估计概率密度函数:
f
^
(
x
)
=
1
2
n
h
{
落在
[
x
−
h
,
x
+
h
]
的样本数量
}
\\hat{f}(x) = \\frac{1}{2nh} \\{\\text{落在} [x-h, x+h] \\text{的样本数量} \\}
f^(x)=2nh1{落在[x−h,x+h]的样本数量}
其中
h
h
h 为带宽宽度,或者又叫窗口宽度。若我们定义一个均匀分布的核函数
k
(
x
)
k(x)
k(x),如下所示:
k
(
x
)
=
{
1
/
2
if
∣
x
∣
≤
1
0
otherwise
k(x)= \\begin{cases}1 / 2 & \\text { if }|x| \\leq 1 \\\\ 0 & \\text { otherwise }\\end{cases}
k(x)={1/20 if ∣x∣≤1 otherwise
于是我们便可以将上述的
f
n
(
x
)
f_n(x)
fn(核密度估计:带宽宽度选择——原理阐述