Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)

Posted 2021-05-02 专知

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)相关的知识，希望对你有一定的参考价值。

Practical_RL: Reinforcement learning for seq2seq (pytorch, tensorflow, theano)

在过去的几十年里，机器学习方法发展迅速。人们可以教算法怎么去理解，找到图像上的对象，翻译自然语言以及甚至生成文本和语音，甚至如果给出足够的标记数据，则可以在因特网上做信息检索（超过人类水平或与人类同水平）。前面唯一的缺点是，并不是每个问题都可以被认为是学习X - > y转换（拟合一些参考标签）。

▌关于本课程：

例如我们发现，在人们说话、学习、玩新的游戏、在城市环境中导航、设计登陆页面、骑自行车、甚至建立强化学习代理时，你不止是简单地教科书式地记住那些最优方案的例子。这些问题的共同之处在于，他们都可以通过反复实验的方法来解决：坚持让那些不好的方面影响较小。

更常见的是，这些问题可以在不同程度上被自动解决。所以在这里我们要做的就是在整个课程中训练机器使其可以进行创造性的解决方案。

MOOC的主要重点是对“机器”等life-size问题进行训练，称为强化学习（RL）算法。

▌菜单包括：

内容包括各种各样的资料，从机器人和游戏到chatbots（聊天机器人），再到金融。该课程在HSE（俄语）校园内进行授课，一直保持对学生友好（包括英语和俄语）。

▌为了从这门课程中获益，需要了解什么？

本课程假定学习者已经掌握以下内容：

还有一件事要知道，这门课程与深度学习的方法有着紧密的联系。没有严格的要求有神经网络的经验，因为课程将使用Theano和Lasagne进行速成课程，但是知道如何使用神经网络一定会派上用场的。

我们的目标是介绍给学生现代人工智能研究的一个突出领域：强化学习。强化学习更多的是关于人类如何在现实中学习，与有监督学习和无监督学习有很大不同。

▌声明：

延伸阅读：对于没有被详细介绍的所有材料，都有更多的信息和相关材料的链接。

实用性第一：解决强化学习的一切问题都是值得一提的。本课程涵盖了技巧和启发。

Git-course：注意到一个公式中的拼写错误？使代码更可读？做了一个替代框架的版本？找到一个有用的链接？知道如何让课程更好？在这里可解决这些问题。

除了学习本课程之外，您还可以为此做出贡献：

▌链接

有关更多信息：GitHub

https://github.com/yandexdataschool/Practical_RL

链接到演讲幻灯片：点击这里

https://yadi.sk/d/loPpY45J3EAYfU

在线学生生存指南：点击这里

https://github.com/yandexdataschool/Practical_RL/wiki/Online-student's-survival-guide

原文链接：https://www.techleer.com/articles/460-practical_rl-reinforcement-learning-for-seq2seq-pytorch-tensorflow-theano/

▌第一次课PPT详细内容

Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)

-END-

专 · 知

人工智能领域主题知识资料查看获取：

同时欢迎各位用户进行专知投稿，详情请点击：

请PC登录www.zhuanzhi.ai或者点击阅读原文，注册登录专知，获取更多AI知识资料！

请加专知小助手微信（Rancho_Fang），加入专知主题人工智能群交流！

点击“阅读原文”，使用专知！

以上是关于Seq2seq强化学习实战 (Pytorch, Tensorflow, Theano)的主要内容，如果未能解决你的问题，请参考以下文章