Reinforcement Learning Q-learning 算法学习-2
Posted AI-LEARNER
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Reinforcement Learning Q-learning 算法学习-2相关的知识,希望对你有一定的参考价值。
在阅读了Q-learning 算法学习-1文章之后。
我分析了这个算法的本质。
算法本质个人分析。
1.算法的初始状态是随机的,所以每个初始状态都是随机的,所以每个初始状态出现的概率都一样的。如果训练的数量够多的
话,就每种路径都会走过。所以起始的Q(X,Y) 肯定是从目标的周围开始分散开来。也就是目标状态为中心的行为分数会最高。
如 Q(1,5) Q(4,5) Q(5,5)这样就可以得到第一级别的经验了。并且分数最高。
Q(state, action) = R(state, action) + Gamma * Max[Q(next state, all actions)]
R(state, action) 函数决定了只有在目标的周围才能产生初始的经验。
然后扩散出来。
Max[Q(next state, all actions)] 函数决定了选择最优的线路,目的是产生离目标最短的距离的级别,最小级别。
2.当出现第一级别的经验之后,才能得到第二级别的经验。否则就得不到经验了。
然后第二级别的经验会比第一级别的低一个比例,由Gamma决定。
3.以此类推,第三级别的。第三级别的经验会比第二级别的低一个比例。也是由Gamma决定
4.这样就得到了一个最短路径的结果。
以上是关于Reinforcement Learning Q-learning 算法学习-2的主要内容,如果未能解决你的问题,请参考以下文章
Reinforcement Learning Q-learning 算法学习-2
Deep Reinforcement Learning with Double Q-learning: DDQN 简约不简单
论文笔记之:Deep Reinforcement Learning with Double Q-learning
2. A Distributional Perspective on Reinforcement Learning
[Machine Learning for Trading] {ud501} Lesson 25: 03-05 Reinforcement learning | Lesson 26: 03-06 Q-
Learning from delayed reward (Q-Learning的提出) (Watkins博士毕业论文)(建立了现在的reinforcement Learning模型)