在强化学习中,最优策略和分段最优策略有啥区别?
Posted
技术标签:
【中文标题】在强化学习中,最优策略和分段最优策略有啥区别?【英文标题】:In reinforcement learning, what is the difference between optimal policy and piece-wise optimal policy?在强化学习中,最优策略和分段最优策略有什么区别? 【发布时间】:2017-03-09 12:34:37 【问题描述】:我们如何定义最优策略和分段最优策略?
我想这取决于它是连续时间问题还是离散时间问题。对于离散时间,两者应该相同。我说的对吗?
【问题讨论】:
【参考方案1】:我想自己添加一个答案。
分段最优策略是我们贪婪地选择最优动作的策略(即仅在下一个瞬间最优)。然而,最优的将是我们在一个时间范围内选择策略(如在情节 MDP 中)。时间范围的长度取决于应用程序。
【讨论】:
以上是关于在强化学习中,最优策略和分段最优策略有啥区别?的主要内容,如果未能解决你的问题,请参考以下文章