多臂赌博机

Posted 郁郁园中柳

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了多臂赌博机相关的知识,希望对你有一定的参考价值。

K臂赌博机问题描述:
重复在K个动作中选择,每次做出选择后都会得到一定数值的收益,收益由选择的动作决定的平稳概率分布产生,目标是在某一段时间内最大化总收益的期望。

思路:
选择收益(价值)最大的动作。知道价值则直接选择,不知道价值就通过多次试验估计价值。

动作值估计

  1. 大数定律(多次尝试这个动作,对结果去均值即可)采样平均法
    取均值意味着得到所有数据的均值,一种方法是记录全部数据,然后计算其均值,时间和空间资源都被浪费;另一种方法是利用增量,只需要知道增加的量和原来的均值,有以下的更新公式:
    一般形式是:新估计值 = 旧估计值 + 步长 × [目标 - 旧估计值]
    在平稳问题(奖励的概率分布不变),采用采样平均法估计动作值,更新步长为1/n。在非平稳问题(奖励的概率分布随时间变化),给近期的奖励比过去很久的奖励更高的权重,可采用固定步长

根据动作值来选择动作:\\(\\varepsilon\\)-greedy策略、greedy策略、上限置信区间动作选择(Upper Confidence bound,对\\(\\varepsilon\\)-greedy的改良。修改了选择其余动作的概率)

小技巧:优化初始条件(在使用贪婪策略时,由于初值较大,一直找不到最优动作可以保持探索。尽管在前期表现不好,一直在探索,但一段时间后,探索的概率会降低,系统会收敛于一个更好的值)

  1. 数值偏好
    不依赖动作的奖赏,而是利用不同动作间的相对偏好或重要程度来选取动作

随机梯度下降法,softmax变换来选择最优动作。

以上是关于多臂赌博机的主要内容,如果未能解决你的问题,请参考以下文章

多臂赌博机

增强学习 | Q-Learning

《Learning to Coordinate with Coordination Graphs in Repeated Single-Stage Multi-Agent Decision Probl

多臂单臂路由

多臂单臂路由

强化学习笔记-02多臂老虎机问题