马尔科夫模型(Markov)(MDP)

Posted 广目天王

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了马尔科夫模型(Markov)(MDP)相关的知识,希望对你有一定的参考价值。

马尔科夫模型主要元素有3个部分  状态,动作,奖励。

对奖励的设置一定慎重,并且深谋远虑。如下图右侧:

绿色方块是 生  红色方块是 死,游戏目的是使agent尽快到达绿色方块。

1:动作奖励正数过高,会使agent一直在方格世界里兜圈子,不想出去。因为这样每多走一步,都会获得正的奖励。

2:动作奖励负数过高,会使agent尽快想逃离这个世界,甚至直接走向红色方块,选择自杀。因为每一步损失都是巨大的,只能以最快的方式结束游戏。

奖励:代表着 即时奖励和即时反馈

效用:代表长期奖励和长期反馈。

 比如现在拿100块钱做投资,在一段时间过后得到了1000块。

这里的 奖励是: 负100块,效用是 1000块。

效用会影响当前的行动,效用非常高时,即使当前的奖励是负数的,依然继续下去。 

           效用非常低时,即使当前看起来奖励很高,依然会停止行动。

真实效用: 最优策略的效用,称为真实效用。

状态效用:在该状态获得的奖励+这个点上获得的所有奖励的折扣值

以上是关于马尔科夫模型(Markov)(MDP)的主要内容,如果未能解决你的问题,请参考以下文章

强化学习 马尔科夫决策过程

强化学习 马尔科夫决策过程

强化学习 马尔科夫决策过程(价值迭代策略迭代雅克比迭代)

初识马尔科夫模型(Markov Model)

隐马尔科夫模型 HMM(Hidden Markov Model)

马尔科夫随机场模型(MRF-Markov Random Field)