核密度估计：带宽宽度选择——原理阐述

Posted 2022-01-18 zhuo木鸟

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了核密度估计：带宽宽度选择——原理阐述相关的知识，希望对你有一定的参考价值。

文章目录

核密度估计定义
- 参数估计方法
- 非参数估计方法
带宽选择的重要性
宽度 h 的选择原则
核密度函数的效率
- 最佳的核函数
- 核函数之间的比较
总结
本博文中用到的 Python 代码

参考文献：

维基百科 kernel density estimation：https://en.wikipedia.org/wiki/Kernel_density_estimation#Bandwidth_selection
维基百科 little o notation：https://en.wikipedia.org/wiki/Big_O_notation#Little-o_notation
林斯顿大学一本不知名的书的第一章（主要参考）
Silverman, B. W. (1986), Density Estimation for Statistics and Data Analysis,London: Chapman and Hall （书，不是论文，主要参考）
A Brief Survey of Bandwidth Selectionfor Density Estimation M. C. JONES, J. S. MARRON, and S. J. SHEATHER

核密度估计定义

在很多问题中，我们可能需要找到某个独立同分布数据集 $(X_1, X_2, \\cdots, X_n)$ 的分布。此时可以采用参数估计或非参数估计的方法。

参数估计方法

对于参数估计来说，首先需要假设数据集的分布族是已知的：例如我们可以假设数据集属于正态分布，但正态分布的参数是未知的，因此我们需要从原始数据集中导出正态分布的参数 $\\mu, \\sigma$ ，即使事实上原始数据的分布并不是正态的。

为了求解正态分布的参数 $\\mu, \\sigma$ ，我们采用极大似然法：在独立同分布的情况下，数据集 $X$ 的联合概率分布是各随机变量 $X_i$ 的概率密度的简单乘积：
$f\\left(X_1, \\ldots, X_n\\right)=\\prod_i=1^n \\frac1\\sqrt2 \\pi \\sigma^2 e^-\\frac\\left(X_i-\\mu\\right)^22 \\sigma^2=\\frac1\\left(2 \\pi \\sigma^2\\right)^n / 2 e^-\\frac12 \\sigma^2 \\sum_i=1^n\\left(X_i-\\mu\\right)^2$
在理想状态下，我们应该求出一个 $\\mu, \\sigma$ ，使得 $f(X_1, X_2, \\cdots, X_n, \\mu, \\sigma)$ ，也即联合概率分布最大，很容易得出：
$\\hat\\mu = \\frac1n \\sum_i=1^n X_i \\text ~~~~~~ \\hat\\sigma^2 = \\frac1n \\sum_i=1^n (X_i - \\hat\\mu)^2$
很显然，这种参数估计的方法的一个最致命的缺点就在于，需要事前假设出数据集的所属分布，这在很多情况下是无法做到的，因此就诞生了一种非参数估计的方法。

非参数估计方法

累计分布函数的定义为 $\\leq x)$ ，对于一个数据集来说，我们可以用频率去代替概率，于是可以估计累计分布函数：
$F_n(x)= \\frac\\text小于 x \\text的样本数量n$
由于概率密度函数：
$\\lim_h\\to 0 \\fracF(x+h) - F(x-h)2h$
于是我们也可以用频率去估计概率密度函数：
$\\hatf(x) = \\frac12nh \\\\text落在 [x-h, x+h] \\text的样本数量 \\$
其中 $h$ 为带宽宽度，或者又叫窗口宽度。若我们定义一个均匀分布的核函数 $k (x)$ ，如下所示：
$\\begincases1 / 2 & \\text if |x| \\leq 1 \\\\ 0 & \\text otherwise \\endcases$
于是我们便可以将上述的 $f_n(x)$