增强学习————K-摇臂赌博机

Posted 2020-07-17 YC_Yuan

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了增强学习————K-摇臂赌博机相关的知识，希望对你有一定的参考价值。

探索与利用
增强学习任务的最终奖赏是在多步动作之后才能观察到，于是我们先考虑最简单的情形：最大化单步奖赏，即仅考虑一步操作。不过，就算这样，强化学习仍与监督学习有显著不同，因为机器要通过尝试来发现各个动作产生的结果，而没有训练数据告诉机器应当做什么动作。简而言之：缺少标记；

想最大化单步奖赏要考虑两个方面：一是需要知道每个动作带来的奖赏，而是要执行奖赏最大的动作。

实际上，单步强化学习任务对应了一个理论模型，即“K-摇臂赌博机”。什么是摇臂赌博机，就是，如图所示，赌徒投入一个硬币后，选择一个摇杆，每个摇杆有一定的概率吐出硬币，这个概率赌徒并不知道。赌徒的目标就是通过找到一个策略来使自己在等量成本下，收益最大。
技术分享

那么，假设赌徒有100个硬币做成本，那他可以有两个选择，一是“仅探索”，就是说，把100个硬币均匀的投入到5个摇臂中，来探索每个摇臂吐出硬币的累计金额，从而得出哪个摇杆最优；一个是“仅利用”，就是说，把100个硬币投入到目前平均奖赏最优的那个摇杆中（多个最优则随机选一个）。显然，这两种都有缺陷，想获得最优的平均奖赏，就是要找到二者的平衡。
于是引入两种算法，贪心法和Softmax算法。

以上是关于增强学习————K-摇臂赌博机的主要内容，如果未能解决你的问题，请参考以下文章

Spring4.1新特性——Spring缓存框架增强(转)

SourceInsight工具增强——AStyle(代码格式化)PC-Lint(静态检查)

Java学习笔记

python学习——小说阅读程序

ABAP系列SAP ABAP 工单增强

2019最新JAVA学习路线-技术要点-面试题