一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习
Posted vector<>
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习相关的知识,希望对你有一定的参考价值。
专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 💗自然语言处理专栏和💗机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧🥰
🍓 2018-2019 学年第二学期期末试题
强化学习五要素:
- 环境
- 奖赏
- 智能体
- 动作
- 状态
适合解决该问题的强化学习算法:
- Actor-Critic算法:该算法由两个部分组成,Actor部分用于生成智能体与环境交互的动作,Critic部分用于对Actor产生的动作进行评价。
强化学习与监督学习和无监督学习的不同,参考:
- 有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。
- 强化学习它不是基于已有的数据进行学习,而是针对一个环境进行学习;
- 另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。
- 通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。
概括地说,强化学习算法主要涉及到两个组成部分:
- 其一是通过与环境交互产生大量的数据
- 其二是利用这些数据去求解最佳策略。
以上是关于一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习的主要内容,如果未能解决你的问题,请参考以下文章
一起入门DeepLearning中科院深度学习_期末复习题2018-2019第二题:求梯度
推荐序:《Deeplearning4j 快速入门》课程,深度学习必备秘籍
推荐序:《Deeplearning4j 快速入门》课程,深度学习必备秘籍