深度学习与图神经网络核心技术实践应用高级研修班-Day4深度强化学习（Deep Q-learning）

Posted 2021-09-09 ZSYL

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了深度学习与图神经网络核心技术实践应用高级研修班-Day4深度强化学习（Deep Q-learning）相关的知识，希望对你有一定的参考价值。

1. 深度强化学习简介

Exploration & Exploitation：探索与利用

前者强调发掘环境中的更多信息，并不局限在已知
的信息中；

后者强调从已知的信息中最大化奖励。

而greedy策略只注重了后者，没有涉及前者。

所以它并不是一个好的策略。

监督学习的前提

经验回放机制

在强化学习中，观测数据是有序的，用这样的数据去更新神经网络的参数会有问题。而在监督学习中，数据之间都是独立的。

DQN中使用经验回放，即用一个Memory来存储经历过的数据，每次更新参数的时候从Memory中抽取一部分的数据来用于更新，以此来打破数据间的关联。

以上是关于深度学习与图神经网络核心技术实践应用高级研修班-Day4深度强化学习（Deep Q-learning）的主要内容，如果未能解决你的问题，请参考以下文章