RL系列SARSA算法的基本结构

Posted 2020-12-27 jinyublog

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了RL系列SARSA算法的基本结构相关的知识，希望对你有一定的参考价值。

SARSA算法严格上来说，是TD(0)关于状态动作函数估计的on-policy形式，所以其基本架构与TD的$v_{pi}$估计算法（on-policy）并无太大区别，所以这里就不再单独阐述之。本文主要通过两个简单例子来实际应用SARSA算法，并在过程中熟练并总结SARSA算法的流程与基本结构。

强化学习中的统计方法（包括Monte Carlo，TD）在实现episode task时，无不例外存在着两层最基本的循环结构。如果我们将每一个episode task看作是一局游戏，那么这个游戏有开始也有结束，统计方法是就是一局接着一局不停的在玩，然后从中总结出最优策略。Monte Carlo与TD的区别在于，Monte Carlo是玩完一局，总结一次，而TD算法是边玩边总结。所以这两层基本结构的外层是以游戏次数为循环，内层则是以游戏过程为循环。

技术分享图片

SARSA作为TD算法下的on-policy control算法，只需边进行游戏边更新动作值函数和Policy即可，所以SARSA算法的内层可以由TD算法细化为如下结构：

技术分享图片

以上是关于RL系列SARSA算法的基本结构的主要内容，如果未能解决你的问题，请参考以下文章