增强学习————K-摇臂赌博机

Posted YC_Yuan

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了增强学习————K-摇臂赌博机相关的知识,希望对你有一定的参考价值。

 

探索与利用
增强学习任务的最终奖赏是在多步动作之后才能观察到,于是我们先考虑最简单的情形:最大化单步奖赏,即仅考虑一步操作。不过,就算这样,强化学习仍与监督学习有显著不同,因为机器要通过尝试来发现各个动作产生的结果,而没有训练数据告诉机器应当做什么动作。简而言之:缺少标记;

想最大化单步奖赏要考虑两个方面:一是需要知道每个动作带来的奖赏,而是要执行奖赏最大的动作。

实际上,单步强化学习任务对应了一个理论模型,即“K-摇臂赌博机”。什么是摇臂赌博机,就是,如图所示,赌徒投入一个硬币后,选择一个摇杆,每个摇杆有一定的概率吐出硬币,这个概率赌徒并不知道。赌徒的目标就是通过找到一个策略来使自己在等量成本下,收益最大。
技术分享

那么,假设赌徒有100个硬币做成本,那他可以有两个选择,一是“仅探索”,就是说,把100个硬币均匀的投入到5个摇臂中,来探索每个摇臂吐出硬币的累计金额,从而得出哪个摇杆最优;一个是“仅利用”,就是说,把100个硬币投入到目前平均奖赏最优的那个摇杆中(多个最优则随机选一个)。显然,这两种都有缺陷,想获得最优的平均奖赏,就是要找到二者的平衡。
于是引入两种算法,贪心法和Softmax算法。



以上是关于增强学习————K-摇臂赌博机的主要内容,如果未能解决你的问题,请参考以下文章

Spring4.1新特性——Spring缓存框架增强(转)

SourceInsight工具增强——AStyle(代码格式化)PC-Lint(静态检查)

Java学习笔记

python学习——小说阅读程序

ABAP系列SAP ABAP 工单增强

2019最新JAVA学习路线-技术要点-面试题