GMMEM算法详解——附0-9孤立词识别demo(python实现)

Posted 2022-12-03 栋次大次

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了GMMEM算法详解——附0-9孤立词识别demo(python实现)相关的知识，希望对你有一定的参考价值。

潜（隐)变量模型

观测变量：直接观测的数据
潜变量：

如：聚类问题，潜变量是类别（未知），观测变量是数据点，给定观测变量，如果推断哪些是同一类？K-means

给定一个含有N个数据点的集合 $\\left\\\\mathbfx_1, \\mathbfx_2, \\ldots, \\mathbfx_N\\right\\$ , $\\mathbfx_\\mathbfn \\in R^D$ ，聚类的目标是将此N个数据点聚类到K个类别中，且假设K给定。

K-means思路：

引入K个D维均值向量 $\\mathbf\\mu_k,k=1,2,...,K$ ， $\\mathbf\\mu_k$ 是第k个类别的聚类中心。
计算数据点 $\\mathbfx_\\mathbfn$ 和所有类中心 $\\mathbf\\mu_k$ 的距离，类中心距离此数据点最近的类别，即为当前数据点的类别。
根据新的聚类结果，使用当前聚集到各个类别的数据的均值来更新当前类别的类中心。
返回第2步，直到满足一定的停止准则。

引入潜变量

对于每一个数据点 $\\mathbfx_n$ 引入一个指示因子 $r_nk \\in \\0,1\\$ ，如果 $\\mathbfx_n$ 属于第k类，则 $r_nk=1$ ，否则 $r_nk=0，$ $r_nk$ 即为潜变量
定义目标函数 $J=\\sum_n=1^N \\sum_k=1^K r_n k\\left\\|\\mathbfx_n-\\boldsymbol\\mu_k\\right\\|^2$
优化目标：寻找合适的$r_nk $和$ \\boldsymbol\\mu_k$使目标函数最小。

模型优化：两阶段迭代优化（简单EM）

选择初始化的 $\\boldsymbol\\mu_k$ 值，并保持 $\\boldsymbol\\mu_k$ 固定，关于$r_nk $最小化$ J$(E步)
$r_n k=\\left\\\\beginarrayll 1 & \\text if k=\\arg \\min _j\\left\\|\\mathbfx_n-\\boldsymbol\\mu_j\\right\\|^2 \\\\ 0 & \\text otherwise \\endarray\\right.$
保持 $r_nk$ 固定，关于 $\\boldsymbol\\mu_k$ 最小化 $J$ (M步)
$\\frac\\partial J\\partial \\boldsymbol\\mu_k=2 \\sum_n=1^N r_n k\\left(\\mathbfx_n-\\boldsymbol\\mu_k\\right)=0 \\rightarrow \\boldsymbol\\mu_k=\\frac\\sum_n r_n k \\mathbfx_n\\sum_n r_n k$

K-means应用：图像分割和压缩

高斯分布

D维高斯变量的高斯分布：
$\\mathcalN(\\mathbfx \\mid \\boldsymbol\\mu, \\mathbf\\Sigma)=\\frac1(2 \\pi)^D / 2 \\frac1|\\mathbf\\Sigma|^1 / 2 \\exp \\left\\-\\frac12(\\mathbfx-\\boldsymbol\\mu)^\\mathrmT \\boldsymbol\\Sigma^-1(\\mathbfx-\\boldsymbol\\mu)\\right\\ \\tag1$