CS294-112 深度强化学习 秋季学期(伯克利)NO.5 Actor-critic introduction
Posted ecoflex
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了CS294-112 深度强化学习 秋季学期(伯克利)NO.5 Actor-critic introduction相关的知识,希望对你有一定的参考价值。
in most AC algorithms, we actually just fit value function. less common to fit Q function as well.
batch:off line, monte carlo。online: bootstrap,TD
in fast emulator,use the left one
this strategy works well in the beginnning of training
以上是关于CS294-112 深度强化学习 秋季学期(伯克利)NO.5 Actor-critic introduction的主要内容,如果未能解决你的问题,请参考以下文章
CS294-112 深度强化学习 秋季学期(伯克利)NO.5 Actor-critic introduction
CS294-112 深度强化学习 秋季学期(伯克利)NO.6 Value functions introduction NO.7 Advanced Q learning
CS294-112 深度强化学习 秋季学期(伯克利)NO.9 Learning policies by imitating optimal controllers
CS294-112 深度强化学习 秋季学期(伯克利)NO.20 Guest lecture: John Schulman (PPO and Applications)
CS294-112 深度强化学习 秋季学期(伯克利)NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learnin
CS294-112 深度强化学习 秋季学期(伯克利)NO.21 Guest lecture: Aviv Tamar (Combining Reinforcement Learning and Plan