CS294-112 深度强化学习秋季学期（伯克利）NO.5 Actor-critic introduction

Posted 2020-11-08 ecoflex

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CS294-112 深度强化学习秋季学期（伯克利）NO.5 Actor-critic introduction相关的知识，希望对你有一定的参考价值。

in most AC algorithms, we actually just fit value function. less common to fit Q function as well.

batch：off line， monte carlo。online： bootstrap，TD

in fast emulator，use the left one

this strategy works well in the beginnning of training

以上是关于CS294-112 深度强化学习秋季学期（伯克利）NO.5 Actor-critic introduction的主要内容，如果未能解决你的问题，请参考以下文章

CS294-112 深度强化学习秋季学期（伯克利）NO.5 Actor-critic introduction

CS294-112 深度强化学习秋季学期（伯克利）NO.6 Value functions introduction NO.7 Advanced Q learning

CS294-112 深度强化学习秋季学期（伯克利）NO.9 Learning policies by imitating optimal controllers

CS294-112 深度强化学习秋季学期（伯克利）NO.20 Guest lecture: John Schulman (PPO and Applications)

CS294-112 深度强化学习秋季学期（伯克利）NO.19 Guest lecture: Igor Mordatch (Optimization and Reinforcement Learnin

CS294-112 深度强化学习秋季学期（伯克利）NO.21 Guest lecture: Aviv Tamar (Combining Reinforcement Learning and Plan