一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习

Posted vector<>

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习相关的知识,希望对你有一定的参考价值。

专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 💗自然语言处理专栏和💗机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧🥰

🍓 2018-2019 学年第二学期期末试题

强化学习五要素:

  • 环境
  • 奖赏
  • 智能体
  • 动作
  • 状态

适合解决该问题的强化学习算法:

  • Actor-Critic算法:该算法由两个部分组成,Actor部分用于生成智能体与环境交互的动作,Critic部分用于对Actor产生的动作进行评价。

强化学习与监督学习和无监督学习的不同,参考:

  • 有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。
  • 强化学习它不是基于已有的数据进行学习,而是针对一个环境进行学习;
  • 另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。
  • 通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。

概括地说,强化学习算法主要涉及到两个组成部分:

  • 其一是通过与环境交互产生大量的数据
  • 其二是利用这些数据去求解最佳策略。
开发者涨薪指南 48位大咖的思考法则、工作方式、逻辑体系

以上是关于一起入门DeepLearning中科院深度学习_期末复习题2018-2019第七题:强化学习的主要内容,如果未能解决你的问题,请参考以下文章

一起入门DeepLearning中科院深度学习_期末复习题2018-2019第二题:求梯度

推荐序:《Deeplearning4j 快速入门》课程,深度学习必备秘籍

推荐序:《Deeplearning4j 快速入门》课程,深度学习必备秘籍

GitHub | 机器学习&深度学习&nlp&cv从入门到深入全套资源分享

入门深度学习的必备数学知识

[转]机器学习深度学习数据挖掘各种资源整理