基本概念
1.1Markov Models
处理顺序数据的最简单的方式是忽略顺序的性质。将观測看做独立同分布。然而这样无法利用观測之间的相关性。比如:预測下明天是否会下雨,全部数据看成独立同分布仅仅能得到雨天的相对频率,而实际中,我们知道天气会呈现持续若干天的趋势。观測今天是否下雨对预測明天是否下雨有非常大帮助。
引入马尔科夫模型(Markov Models)。
1)如果仅仅与近期的一次观測有关。而独立于其它全部之前的观測,那么我们就得到了 一阶马尔科夫链(first-order Markov chain):
观測-
2)同意预測除了与当前观測有关以外。还与当前观測的前一次观測有关,那么我们就得到了二阶马尔科夫链:
二阶马尔科夫链,当中特定的观測-
3)一阶马尔科夫链中的条件概率分布
M阶,则有參数个数
!)
怎样构造随意阶数的不受马尔科夫如果限制的序列模型,同一时候能够使用较少数量的參数确定??
对于每一个观測
如果潜在变量构成了马尔科夫链,得到的图结构被称为状态空间模型(state space model):
隐马尔科夫模型能够被看成上图所看到的的状态空间模型的一个详细实例。当中潜在变量是离散的。
1.2Hidden Markov Models
定义:
隐马尔可夫模型是关于时序的概率模型,描写叙述由一个隐藏的马儿可夫链随机生成不可观察的状态随机序列,再由各个状态生成一个观測而产生随机序列的过程。
- 状态序列:隐藏的马尔可夫链随机生成的状态序列,称为状态序列(state sequence);
- 观測序列:每一个状态生成一个观測,而由此产生的观測的随机序列,称为观測序列(observation sequence)。
- 时刻:序列的每一个位置又看作是一个时刻。
设
Q:全部可能的状态的集合
V:全部可能的观測的集合
I:长度为T的状态序列
O:相应的观測序列
A:状态转移概率矩阵
在时刻t处于状态
B:观測概率矩阵
是在时刻t处于状态
π:初始状态概率向量
是时刻t=1处于状态
隐马尔可夫模型由初始状态概率向量π、状态转移概率矩阵A和观測概率矩阵B决定,λ=(A,B,π)
下图是一个三个状态的隐马尔可夫模型状态转移图,当中x 表示隐含状态。y 表示可观察的输出,a 表示状态转换概率,b 表示输出概率。
下图显示了天气的样例中隐藏的状态和能够观察到的状态之间的关系。我们如果隐藏的状态是一个简单的一阶马尔科夫过程。而且他们两两之间都能够相互转换。
状态转移矩阵来表示,其表示形式例如以下:
对该矩阵有例如以下约束条件:
隐马尔可夫模型有3个基本问题:
(1)概率计算问题.给定模型λ=(A,B,π)和观測序列
(2)学习问题.己知观測序列
(3)预測问题,也称为解码(decoding)问题.己知模型λ=(A,B,π)和观測序列
维特比算法(Viterbi)
以下将逐一介绍这些基本问题的解法.
1.3概率计算算法(前向后向算法。!)
1-3-1直接计算
给定模型λ=(A,B,π)和观測序列
最直接的方法是按概率公式直接计算。通过列举全部可能的长度为T的状态序列
状态序列
对固定的状态序列
P(O,I|λ),
O和I同一时候出现的联合概率为
然后。对全部可能的状态序列I求和。得到观測序列O的概率P(O|λ),即
可是,利用上述公式计算量非常大,是
以下介绍计算观測序列概率P(O|λ)的有效算法:前向一后向算法(forward-backward algorithm)
1-3-2前向算法
首先定义前向概率.
定义(前向概率):给定隐马尔可夫模型λ,定义到时刻t部分观側序列为
能够递推地求得前向概率
算法:(观測序列概率的前向算法)
输入:隐马尔可夫模型λ,观測序列O
输出:观測序列概率P(O|λ)
(1)初始化前向概率,
(2)递推,对t=1,…T-1。
(3)终止,
(1)是初始时刻的状态
(2)计算到时刻t+1部分观測序列为
公式方括弧里,既然
对这个乘积在时刻t的全部可能的N个状态
方括弧里的值与观測概率
步骤(3)给出P(O|λ)的计算公式.由于
所以
1-3-3后向算法
定义 (后向概率):给定隐马尔可夫模型λ。定义在时刻t状态为
用递推的方法求得后向概率
算法:(观測序列概率的后向算法)
输入:隐马尔可夫模型λ。观測序列O
输出:观測序列概率P(O|λ)
(1)
(2)对t=T-1,T-2,…,1
(3)
利用前向概率和后向概率的定义能够将观測序列概率P(O|λ)统一写成:
1.4学习问题[Baum-Welch算法(也就是EM算法)]
给定输出序列O=O1O2…..OT。学习模型參数λ=(A,B,π)。当中状态序列数据是不可观測的隐数据I。隐马尔可夫模型变成一个含有隐变量的概率模型。參数学习可由EM算法实现。
给定模型λ和观測O,在时刻t处于状态
给定模型λ和观測O,在t时刻处于状态
算法:(Baum-Welch算法)
输入:观測数据
输出:隐马尔可夫模型參数
(1)初始化,随机选定參数
(2)EM计算:
E步骤:依据式1和式2计算期望
M步骤:依据期望
(3)循环计算:n=n+1,直到
1.5预測算法
维特比算法(Viterbi algorithm)
维特比算法实际是用动态规划解隐马尔可夫模型预側问题。即用动态规划(dynamic programming)求概率最大路径(最优路径).这时一条路径相应着一个状态序列.
给定观測序列O=O1O2…OT,和模型λ=(A,B,π),找出“最优”的状态序列q1q2…qT,使得该状态最好地解释观測序列。
从时刻t=1開始,递推地计算在时刻t状态为i的各条部分路径的最大概率。直至得到时刻t=T状态为i的各条路径的最大概率.时刻t=T的最大概率即为最优路径的概率
最优路径的终结点
首先导入两个变量δ和ψ.定义在时刻t状态为i的全部单个路径
由定义可得变量δ的递推公式:
定义在时刻t状态为i的全部单个路径 中概率最大的路径的第t-1个(前一个状态)结点为
上图中,对于从t时刻三个到 t+1时刻的状态1,究竟取状态1,2还是3,不是看单独状态1,2还是3的概率,而是看在状态1,2,3各自的维特比变量值乘以相应的状态转换概率,从中选出最大值,如果2时最大。那么记下t+1时刻状态1之前的路径是t时刻的状态2,以此类推。
Viterbi算法(Viterbi algorithm)的一个广泛应用是自然语言处理中的词性标注。在词性标注中,句子中的单词是观察状态。词性(语法类别)是隐藏状态(注意对于很多单 词。如wind,fish拥有不止一个词性)。
对于每句话中的单词。通过搜索其最可能的隐藏状态,我们就能够在给定的上下文中找到每一个单词最可能的词性标 注。
总结:
隐马尔科夫的适用场景,用来解决什么问题?
存在非常多样例,在这些样例中进程的状态(模式)是不能够被直接观察的,可是能够非直接地。或者概率地被观察为模式的第二种集合——这样我们就能够定义一类隐马尔科夫模型——这些模型已被证明在当前很多研究领域,尤其是语音识别领域具有非常大的价值。
一个语音识别系统检測的声音(能够观察的状态)是人体内部各种物理变化(隐藏的状态、引申一个人真正想表达的意思)产生的。
解决三种问题:
- 评估:给定的隐马尔科夫模型生成一个给定的观察序列的概率是多少。
- 学习:一个给定的观察序列样本。什么样的模型最可能生成该序列——也就是说。该模型的參数是什么。
- 解码:什么样的隐藏(底层)状态序列最有可能生成一个给定的观察序列。
缺点:
过于简化的如果,即一个状态仅仅依赖于前一个状态,而且这样的依赖关系是独立于时间之外的(与时间无关)