强化学习 double DQN 代码注释解析
Posted 软件工程小施同学
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习 double DQN 代码注释解析相关的知识,希望对你有一定的参考价值。
初始化过程:初始化操作。初始化神经网络的参数,同时也会执行若干次transition来初始化记忆库。例如,记忆库的容量N=500,可以选择执行200次transition来初始化记忆库,这样学习过程可以从记忆库中抽取batch个transition,进行学习了。
存储过程:更新记忆库。每发生一次transition,都会存入记忆库,超出记忆库容量N,会先删去记忆库中最早存入的transition。在存储过程中,只执行eval_net来获取Q值,进而根据实际情况,得到动作,奖励,和下一状态。
学习过程:更新eval_net参数。可以选择发生若干步存储过程,执行一次学习过程。
更新过程:更新target_net参数。一般发生若干步学习过程,执行一次更新过程。
强化学习(十)Double DQN (DDQN) - 刘建平Pinard - 博客园在强化学习(九)Deep Q-Learning进阶之Nature DQN中,我们讨论了Nature DQN的算法流程,它通过使用两个相同的神经网络,以解决数据样本和网络训练之前的相关性。但是还是有其他https://www.cnblogs.com/pinard/p/9778063.html
以上是关于强化学习 double DQN 代码注释解析的主要内容,如果未能解决你的问题,请参考以下文章