在强化学习中，最优策略和分段最优策略有啥区别？

Posted 2023-04-12

技术标签:

【中文标题】在强化学习中，最优策略和分段最优策略有啥区别？【英文标题】：In reinforcement learning, what is the difference between optimal policy and piece-wise optimal policy?在强化学习中，最优策略和分段最优策略有什么区别？ 【发布时间】：2017-03-09 12:34:37 【问题描述】：

我们如何定义最优策略和分段最优策略？

我想这取决于它是连续时间问题还是离散时间问题。对于离散时间，两者应该相同。我说的对吗？

【问题讨论】：

【参考方案1】：

我想自己添加一个答案。

分段最优策略是我们贪婪地选择最优动作的策略（即仅在下一个瞬间最优）。然而，最优的将是我们在一个时间范围内选择策略（如在情节 MDP 中）。时间范围的长度取决于应用程序。

【讨论】：

以上是关于在强化学习中，最优策略和分段最优策略有啥区别？的主要内容，如果未能解决你的问题，请参考以下文章

什么叫强化学习的探索和利用过程

强化学习(David Silver)3：动态规划

价值迭代和策略迭代有啥区别？ [关闭]

数据酷客 | 强化学习科普第3期：动态规划

基于Pytorch的强化学习(DQN)之价值学习

强化学习(David Silver)7：策略梯度算法