C-K方程
Posted siranlee
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了C-K方程相关的知识,希望对你有一定的参考价值。
C-K方程的两个例子(1)
C-K方程
马尔科夫链的一步转移概率矩阵\\(P\\)好理解,而它的\\(n\\)步转移概率矩阵\\(P\\)应该是如下的定义:
\\(P_i,j^n = P\\X_n+k=j|X_k = i\\\\)
而\\(C-K\\)(查普曼-柯尔莫哥洛夫)方程\\(P_i,j^n+m =\\sum_k P_i,k^nP_k,j^m\\)就是告诉我们上面这个概率\\(P_i,j^n\\)是如何计算的,我们下面来推导一下\\(C-K方程\\)
\\(P_i,j^n+m = P\\X_n+m=j|X_0=i\\ = \\sum_k=0^\\infty P\\X_n+m=j,X_n=k|X_0 = i\\=\\sum_k=0^\\infty P\\X_n+m = j|X_n=k,X_0=i\\P\\X_n= k|X_0=i\\\\)
这里第一个等号运用了类似于全概率的思想,可以理解为从一个节点到另一个节点的概率等于该节点通过所有中间节点(时间的先后性保证了中间节点必存在)到达另一个节点的概率,也就是说如果是\\(P\\X_n+m = j,X_n=k,X_p=r|X_0=i\\\\)(\\(n>p\\))那么前面应该有两个求和号了。第二个等号从形式上可以通过条件概率公式可以理解,接着有
\\(P_i,j^n+m =\\sum_k=0^\\infty P\\X_n+m = j|X_n=k,X_0=i\\P\\X_n= k|X_0=i\\=\\sum_k=0^\\infty P\\X_n+m = j|X_n=k\\P\\X_n = k|X_0=i\\\\)
这里第二个等号成立的原因是马氏链考虑的是相邻两个时间点的关系,所以第三个时间点(这里的\\(X_0\\))于\\(X_n+m\\)是相互独立的。这里第二个等号后面的式子也体现出来"链"的特征。所以最后有:
\\(P_i,j^n+m=\\sum_k=0^\\infty P_k,j^mP_i,k^n=\\sum_k=0^\\infty P_i,k^nP_k,j^m=P^n\\cdot P^m(i,j)\\)
这里第一个等号是通过定义来的,而最后一个等号是通过与现有理论符合得来的。这里\\(P^n,P^m\\)指的是\\(n\\)步以及\\(m\\)步的概率转移矩阵,它们不一定就等于\\(P\\)的对应次方,但是可以通过归纳的方式来证明\\(P^n,P^m\\)就是\\(P\\)的对应次方。
例 1
考虑一个转移概率矩阵是\\(P_i,j\\)的马尔科夫链,用\\(\\Omega\\)来表示这个链可以到达的状态集合的子集,现在想要求出给定初始状态\\(X_0=i\\)下,此链在时刻\\(m\\)前曾进入过\\(\\Omega\\)中任意一个状态的概率,即我们要求的是:
\\(P\\X_k\\in \\Omega\\ ,k=1,2...,m|X_0=i\\\\ i\\notin \\Omega\\)
这里定义另一个马尔科夫链\\(W_n\\), 它的定义如下
\\(W_n=\\left\\
\\beginaligned
X_n\\quad n< N \\\\\\
A \\quad n\\geq N\\\\
\\endaligned
\\right.\\)
其中N表示原来的马尔科夫链首次进入\\(\\Omega\\)的时间。所以说\\(W_n\\)在\\(n<N\\)时表示的都是没有进入过\\(\\Omega\\)的状态\\(X_n\\),而\\(W_n\\)在\\(n\\geq N\\)后完全就只有一种状态\\(A\\), 这样的定义来源于对题目的分析,因为想要求出的是原来的马氏链在时刻\\(m\\)前曾经进入过\\(\\Omega\\)的任意一个状态的概率,这里并没有对进入的时刻以及其具体的状态做要求,所以我们考虑的仅仅是在时刻\\(m\\)之前它是否进入过\\(\\Omega\\), 所以本质上可以是一个0-1问题,也就是说我们对该链在时刻\\(m\\)之前进入过\\(\\Omega\\)的所有事件(目标事件)一视同仁(不论它们进入的是\\(\\Omega\\)中的哪个状态),都记为\\(A\\),有点类似于首中即停止的那一类概率问题;而对于在\\(m\\)前的状态则不能一视同仁,因为给定了初始条件\\(X_0=i\\),所以这里将\\(W_n\\)在\\(n<N\\)的状态定义为\\(X_n\\), 但是根据上面的这个分析思路是否可以将\\(1\\)到\\(n-1\\)的状态都定义为一种状态,而使得\\(W_n\\)变成一种三状态的马氏链呢?这个我们后面再讨论。
根据\\(W_n\\)的定义,我们可以定义这个马氏链的转移矩阵\\(Q\\)
\\(Q_i,j = P_i,j\\quad i\\notin \\Omega\\quad j\\notin \\Omega\\)
\\(Q_i,A = \\sum_j\\in \\Omega P_i,j\\quad i\\notin \\Omega\\)
\\(Q_A,A = 1\\)
现在我们需要考虑的就是如何将原来马氏链的问题转移到上面定义的马氏链的问题下。原来的问题描述的是在时刻\\(m\\)之前进入过\\(\\Omega\\)的概率,也就是说原来的马氏链下首次进入\\(\\Omega\\)的时间应该是在\\(m\\)之前,所以有\\(m\\geq N\\), 此时对应得有\\(W_m=A\\),所以原来的问题和给定初始条件\\(X_0=i\\)下, \\(W_m=A\\)之间是当且仅当的关系(一一映射)。所以有
\\(P\\X_k\\in \\Omega\\ ,k=1,2...,m|X_0=i\\ = P\\W_m = A|X_0=i\\=P\\W_m=A|W_0=i\\=Q_i,A^m\\)
接下来讨论\\(\\W_n,n\\geq 0\\\\)这个马氏链是否可以转化为一个3状态的马氏链\\(\\R_n,n\\geq 0\\\\), 按照上面的定义我们可以有
接着我们根据\\(Q\\)来给出\\(\\R_n,n\\geq0\\\\)的转移概率矩阵\\(O\\)
\\(O_i,0 = P_i,0\\)
\\(O_i,B =\\sum_j\\in \\Lambda P_i,j\\quad i\\notin \\Omega\\ and \\ j\\notin \\Omega\\) 这里\\(\\Lambda\\)表示除\\(X_0\\)的状态以及\\(\\Omega\\)之外的状态集合
\\(O_i,A = Q_i,A\\)
\\(O_B,i = \\sum_j\\in \\Lambda P_j,i\\)
\\(O_B,B = \\sum_j\\in \\Lambda\\sum_k\\in \\Lambda P_j,k\\)
\\(O_B,A = \\sum_j\\in \\Lambda\\sum_k\\in \\Omega P_j,k\\)
\\(O_A,i = 0\\)
\\(O_A,B = 0\\)
\\(O_A,A = 1\\)
而原始的问题是在时刻\\(m\\)之前进入过\\(\\Omega\\)的概率,在\\(R_n\\)的上下文问下,问题等价于给定初始条件\\(X_0=i\\)下,\\(R_m = A\\),那么有
\\(P\\X_k\\in \\Omega\\ ,k=1,2...,m|X_0=i\\ = P\\R_m = A|X_0=i\\ = P\\R_m=A|R_0=i\\=O_i,A^m\\)
现在假设我们想求马氏链\\(\\X_n, n\\geq 0\\\\)在给定初始状态\\(X_0=i\\)在时刻\\(m\\)进入状态\\(j\\)而且从没有进入过\\(\\Omega\\)中任何状态的概率,这里\\(i,j \\notin \\Omega\\)。我们实际上想求得的概率是
\\(P\\X_m = j, X_k\\notin \\Omega, k= 1,2,...,m-1|X_0=i\\\\quad i,j\\notin \\Omega\\)
可以比较容易看出上述概率等价于\\(P\\W_m = X_m = j|W_0=X_0=i\\=Q_i,j^m\\)
如果上面的变形中\\(i\\notin\\Omega\\)且\\(j\\in \\Omega\\)呢?也就是说给定初始状态下,马氏链在时刻\\(m\\)进入\\(\\Omega\\)中并落在\\(j\\)处,而它在此之前没有进入过\\(\\Omega\\)的概率,这个情形和最初的那个情形不同之处在于指定了过程末的状态必须是\\(j\\). 即我们要求的概率形式化为
$PX_m=j,X_k\\notin \\Omega, k= 1,2,...,m-1|X_0=i $ \\(i\\notin\\Omega\\)且\\(j\\in \\Omega\\)
通过对\\(X_m-1\\)取条件,我们可以有
\\(P\\X_m=j,X_k\\notin \\Omega,|X_0=i\\ = \\sum_r\\notin \\Omega P\\X_m = j,X_m-1 = r|X_0=i\\=\\sum_r\\notin \\Omega P\\X_m=j|X_m-1=r\\\\times P\\X_m-1=r|X_0=i\\\\)
这里前一项可以通过一步概率转移矩阵求得,而后一项描述的给定初始状态下,在时刻\\(m-1\\)时的状态为\\(r\\), 前\\(m-1\\)次都没有进入过\\(\\Omega\\), 这种情形就是前一个讨论过的情形,所以结果是
\\(P\\X_m=j,X_k\\notin \\Omega, k= 1,2,...,m-1|X_0=i\\ = \\sum_r\\notin \\Omega P_r,jQ_i,r^m-1\\)
应用随机过程02:马尔可夫链及其概率分布
Chapter 2:马尔可夫链及其概率分布
一、马尔可夫链的定义
Part 1:条件概率
这一章开始之前,我们先对条件概率做一个回顾,这是概率论中非常重要的概念之一。在随机过程的学习中,马尔可夫链这部分内容就需要充分利用条件概率的相关知识。
条件概率的定义:对于任意两个事件 \\(A\\) 和 \\(B\\) ,假设 \\(P(B)>0\\) ,则在给定 \\(B\\) 的条件下,\\(A\\) 的条件概率为:
下面我们总结一些和条件概率相关的常用计算公式:
- 乘法公式:条件概率的定义式可以改写为
- 链式法则:将乘法公式继续推广到多个事件,可以写为
- 全概率公式:设 \\(S\\) 为样本空间,事件 \\(B_1,B_2,\\cdots,B_N\\) 为 \\(S\\) 的一个划分,则对任意事件 \\(A\\) 有
- 贝叶斯公式:设 \\(S\\) 为样本空间,事件 \\(B_1,B_2,\\cdots,B_N\\) 为 \\(S\\) 的一个划分,则对任意事件 \\(A\\) 有
上述公式就是计算条件概率问题中最核心的内容,也是最有效的工具。关于条件概率的知识,我们就复习到这里。由于篇幅所限,关于条件分布的知识我们就默认已经掌握了。
Part 2:马尔可夫链的定义
首先我们定义一种表述方法,考虑只取有限个或可数个值的随机过程 \\(\\X_n:n=0,1,2\\cdots\\\\) ,若 \\(X_n=i\\) ,则称过程在 \\(n\\) 时刻处于状态 \\(i\\) 。下面我们来定义马尔可夫性和马尔科夫链。
马尔可夫性:给定过去的状态 \\(X_0,X_1,\\cdots,X_n-1\\) 和现在的状态 \\(X_n\\) ,将来的状态 \\(X_n+1\\) 的条件分布与过去的状态独立,只依赖于现在的状态,这样的性质称为马尔可夫性。
如果我们用 \\(A\\) 表示过去的状态,用 \\(B\\) 表示现在的状态,而用 \\(C\\) 表示将来的状态,即
则马尔可夫性可以用条件概率直观表示为
由此可以等价推出
因此马尔可夫性也可以理解为在已知现在状态的条件下,过去与将来相互独立。
马尔可夫链:设随机过程 \\(\\X_n:n=0,1,2,\\cdots\\\\) 的状态空间 \\(I\\) 有限或可列,如果它具有马尔可夫性,即对任意的状态 \\(i_0,i_1,\\cdots,i_n-1,i,j\\in I\\) 和任意的 \\(n\\geq1\\) 有
则称随机过程 \\(\\X_n:n=0,1,2,\\cdots\\\\) 是马尔可夫链,简称为马氏链。
我们把具有马尔可夫性的随机过程称为马尔可夫过程。马尔可夫链是离散时间离散状态的马尔可夫过程。在后面我们要学到的泊松过程是连续时间离散状态的马尔可夫过程,布朗运动是连续时间连续状态的马尔科夫过程。
二、转移概率和转移矩阵
Part 1:转移概率的定义
考虑马尔可夫链 \\(\\X_n:n=0,1,2,\\cdots\\\\) 及其状态空间 \\(I=\\i_0,i_1,i_2\\cdots,\\\\) ,我们将条件概率定义为
用来表示过程在 \\(m\\) 时刻处于状态 \\(i\\) 的条件下,经过 \\(n\\) 步后转移到状态 \\(j\\) 的转移概率。 由于概率是非负的,且过程在 \\(m\\) 时刻从任何一个状态 \\(i\\) 出发,到 \\(m+n\\) 时刻必须转移到 \\(I\\) 中的某个状态,所以有
这是最一般情况下的转移概率,在实际应用的时候很少会遇到,所以我们不在此引入转移概率矩阵的定义。下面我们来介绍一种特殊的马尔可夫链及其转移概率。
Part 2:时齐的马尔可夫链
时齐的马尔可夫链:如果 \\(P(X_n+1=j|X_n=i)\\) 不依赖于 \\(n\\) ,则称过程 \\(\\X_n\\\\) 是时齐的马尔可夫链。定义马尔可夫链的一步转移概率为
一步转移概率 \\(p_ij\\) 的含义是处在状态 \\(i\\) 的过程下一次转移到状态 \\(j\\) 的概率,显然一步转移概率也具有如下性质:
不妨设状态空间为自然数集 \\(\\mathbbN=\\0,1,2,\\cdots\\\\) ,定义一步转移概率矩阵为
显然一步转移概率矩阵 \\(P\\) 的所有元素都是非负的,且每一行的元素之和为 \\(1\\) 。
在马尔可夫链是时齐的情形下,条件概率 \\(P(X_m+n=j|X_m=i)\\) 只与 \\(i,j\\) 以及时间间隔 \\(n\\) 有关,定义马尔可夫链的 \\(n\\) 步转移概率为
其含义是处在状态 \\(i\\) 过程将在 \\(n\\) 次转移之后处于状态 \\(j\\) 的概率。类似的可以定义 \\(n\\) 步转移概率矩阵为
根据以上定义,如果我们想判断一个马尔可夫链是时齐的,只需要证明它的一步转移概率与时间 \\(n\\) 无关即可。在后面的学习中,我们研究的大部分马尔可夫链都是时齐的,并且多步转移概率可以由一步转移概率计算得到,所以这里最重要的两个概念就是一步转移概率和一步转移概率矩阵。
三、有限维分布和 C-K 方程
Part 1:C-K 方程
设 \\(\\X_n:n=0,1,\\cdots\\\\) 是马尔可夫链,状态空间为 \\(I\\) ,对任意的 \\(n,m,l\\geq0\\) ,有
这就是 Chapman-Kolmogorov 方程,简称 C-K 方程。
证明:由全概率公式和马尔可夫性知,
\\[\\beginaligned p_ij(n,n+m+l)&=P(X_n+m+l=j|X_n=i) \\\\ \\\\ &=\\sum_k\\in IP(X_n+m=k|X_n=i)P(X_n+m+l=j|X_n+m=k,X_n=i)\\\\ \\\\ &=\\sum_k\\in IP(X_n+m=k|X_n=i)P(X_n+m+l=j|X_n+m=k) \\\\ \\\\ &=\\sum_k\\in Ip_ik(n,n+m)p_kj(n+m,n+m+l) \\ . \\endaligned \\]
我们可以将 C-K 方程直观解释为:过程在时刻 \\(n\\) 从状态 \\(i\\) 出发,经过 \\(m+l\\) 步到达状态 \\(j\\) 的事件,等价于过程在时刻 \\(n\\) 从状态 \\(i\\) 出发,先经过 \\(m\\) 步到达某个中间状态 \\(k\\) ,再从状态 \\(k\\) 出发,经过 \\(l\\) 步到达状态 \\(j\\) 的事件的和。
若该马尔可夫链是时齐的,即转移概率不依赖于初始时刻 \\(n\\) ,此时我们可以把 C-K 方程改写为
用转移概率矩阵可以把 C-K 方程改写为
特别地,利用数学归纳法可以证明 \\(n\\) 步转移概率矩阵是一步转移概率矩阵的 \\(n\\) 次方,即
Part 2:有限维分布
这里我们只讨论时齐的马尔可夫链,有下列命题成立:时齐马尔可夫链的有限维分布完全由初始分布和一步转移概率矩阵决定。我们将这个命题分为一维分布和多维分布两种情况讨论。
设 \\(\\X_n:n=0,1,\\cdots\\\\) 是时齐的马尔可夫链,状态空间为 \\(I\\) 。首先考虑一维分布,将 \\(P(X_0=i),\\,i\\in I\\) 称为初始分布,将 \\(P(X_n=i),\\,i\\in I\\) 称为第 \\(n\\) 步分布,则有如下命题成立:
如果我们将初始分布和第 \\(n\\) 步分布记为 \\(\\mu^(0)\\) 和 \\(\\mu^(n)\\) 并写为行向量,则上述命题可以表示为:
证明:由全概率公式知,
\\[\\beginaligned P(X_n=j)&=\\sum_i\\in IP(X_0=i)P(X_n=j|X_0=i) \\\\ \\\\ &=\\sum_i\\in IP(X_0=j)p_ij^(n) \\ . \\endaligned \\]
接下来考虑任意 \\(k\\) 维分布。对任意的 \\(n_1<n_2<\\cdots<n_k\\) ,有如下命题成立:
证明:由条件概率的链式法则知,
\\[\\beginaligned \\ &P\\left(X_n_1=i_1,X_n_2=i_2,\\cdots,X_n_k=i_k\\right) \\\\ \\\\ =\\ &P\\left(X_n_1=i_1\\right)P\\left(X_n_2=i_2|X_n_1=i_1\\right)\\cdots P\\left(X_n_k=i_k|X_n_1=i_1,\\cdots,X_n_k-1=i_k-1\\right) \\\\ \\\\ =\\ &P\\left(X_n_1=i_1\\right)P\\left(X_n_2=i_2|X_n_1=i_1\\right)\\cdots P\\left(X_n_k=i_k|X_n_k-1=i_k-1\\right) \\\\ \\\\ =\\ & P\\left(X_n_1=i_1\\right)p_i_1i_2^(n_2-n_1)p_i_2i_3^(n_3-n_2)\\cdots p_i_k-1i_k^(n_k-n_k-1) \\ . \\endaligned \\]
以上是关于C-K方程的主要内容,如果未能解决你的问题,请参考以下文章