深度强化学习的实操 动作空间状态空间回报函数的设计以及算法选择训练调试和性能冲刺

Posted 码丽莲梦露

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了深度强化学习的实操 动作空间状态空间回报函数的设计以及算法选择训练调试和性能冲刺相关的知识,希望对你有一定的参考价值。

写这篇文章主要是想给和我一样正在学DRL以及正在训练DRL的小伙伴推荐一本书:

《深度强化学习落地指南》

总共100来页,薄薄的一小绿本,但是帮助极大,它不是一本纯理论的书,主要还是讲的实践,该如何解决实际问题,我感觉对我的帮助也是非常大的,一直以来对模型的设计和训练都特别吃力,很痛苦,但读了这本书真的是豁然开朗!

这本书的内容下面这个框图

原作者在知乎也有更一小部分书中得内容,如:

深度强化学习落地方法论(7)—— 训练篇 - 知乎 (zhihu.com)

强烈推荐!!!

以上是关于深度强化学习的实操 动作空间状态空间回报函数的设计以及算法选择训练调试和性能冲刺的主要内容,如果未能解决你的问题,请参考以下文章

强化学习 Reinforcement Learning

深度强化学习技术概述

(十三)从零开始学人工智能-强化学习:值函数近似和策略梯度

强化学习笔记:policy learning

强化学习过程中对产生的无效动作应该如何进行屏蔽处理?(强化学习中可变的动作空间怎么处理)

基础知识十六强化学习