Reinforcement Learning强化学习系列之三:MC Control
Posted luchi007
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Reinforcement Learning强化学习系列之三:MC Control相关的知识,希望对你有一定的参考价值。
引言
前面一篇文章中说到了MC prediction,主要介绍的是如何利用采样轨迹的方法计算Value函数,但是在强化学习中,我们主要想学习的是Q函数,也就是计算出每个state对应的action以及其reward值,在这篇文章中,将会介绍。
MC control with epsilon-greedy
这一部分将会介绍基于 ϵ−
以上是关于Reinforcement Learning强化学习系列之三:MC Control的主要内容,如果未能解决你的问题,请参考以下文章
强化学习专栏——Reinforcement Learning
Reinforcement Learning强化学习系列之一:model-based learning