Bellman 贝尔曼方程究竟是什么

Posted 软件工程小施同学

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Bellman 贝尔曼方程究竟是什么相关的知识,希望对你有一定的参考价值。

贝尔曼方程是一种思想,而不是一个具体的公式

贝尔曼方程是由美国一位叫做理查德-贝尔曼科学家发现并提出的。

它的核心思想是:当我们在特定时间点和状态下去考虑下一步的决策,我们不仅仅要关注当前决策立即产生的Reward,同时也要考虑当前的决策衍生产生未来持续性的Reward。

简单地说就是既要考虑当前收益最大化,还需要去关注未来持续的收益。

如在Q-learning中,我们更新Q(s,a)时不仅关注当前收益也关注未来收益,当前收益就是状态变更环境立即反馈的reward,

通俗易懂谈强化学习之Q-Learning算法实战 

工众耗:微程序学堂

以上是关于Bellman 贝尔曼方程究竟是什么的主要内容,如果未能解决你的问题,请参考以下文章

Bellman-Ford算法

贝尔曼方程定义

动态规划算法秘籍

五分钟带你了解哈希算法究竟是什么!

GPU大百科全书 第一章:美女 方程与几何

Bellman-Ford算法