Bellman 贝尔曼方程究竟是什么
Posted 软件工程小施同学
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Bellman 贝尔曼方程究竟是什么相关的知识,希望对你有一定的参考价值。
贝尔曼方程是一种思想,而不是一个具体的公式
贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。
它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要考虑当前的决策衍生产生未来持续性的Reward。
简单地说就是既要考虑当前收益最大化,还需要去关注未来持续的收益。
如在Q-learning中,我们更新Q(s,a)时不仅关注当前收益也关注未来收益,当前收益就是状态变更环境立即反馈的reward,
工众耗:微程序学堂
以上是关于Bellman 贝尔曼方程究竟是什么的主要内容,如果未能解决你的问题,请参考以下文章