强化学习专栏|多臂老虎机问题(Multi-armed Bandit Problem)
Posted 码丽莲梦露
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了强化学习专栏|多臂老虎机问题(Multi-armed Bandit Problem)相关的知识,希望对你有一定的参考价值。
注:此处译为多臂老虎机问题是跟随部分书籍和网络上的翻译,或又称多臂强盗问题等。
强化学习区别于其他类型学习的最重要特征是,它使用训练信息来评估所采取的行动,而不是通过给出正确的行动来指导。这就产生了积极探索的需要,需要明确地寻找良好的行为。纯粹的评价性反馈表明所采取的行动有多好,但不能说明这是最好的行动还是最糟糕的行动。另一方面,纯粹的指导性反馈指示要采取的正确行动,而与实际采取的行动无关。
多臂老虎机问题不涉及多种状态,避免了完全强化学习问题的复杂性,提供了一个简化的环境中研究强化学习的评估性方面。通过研究这个案例,我们可以最清楚地看到评价性反馈与指导性反馈的不同之处,而且还可以与指导性反馈相结合。
1 k-armed Bandit Problem(k 臂老虎机问题)
k臂老虎机问题可理解为:k个不同的选项或动作中反复面临选择。每次选择后,您都会收到从固定概率分布中选择的数字奖励,该概率分布取决于您选择的操作。目标为在一段时间内最大化总奖励的期望。
以上是关于强化学习专栏|多臂老虎机问题(Multi-armed Bandit Problem)的主要内容,如果未能解决你的问题,请参考以下文章
笔记︱盘点实验科学的三种实验模型(A/B实验因果推断强化学习)
笔记︱盘点实验科学的三种实验模型(A/B实验因果推断强化学习)