使用 Vowpal wabbit 的上下文强盗
Posted
技术标签:
【中文标题】使用 Vowpal wabbit 的上下文强盗【英文标题】:Contextual Bandit using Vowpal wabbit 【发布时间】:2015-08-06 20:42:25 【问题描述】:在这种情况下,输入之一是选择手臂/动作的概率,但我们如何找到该概率? 找到这个概率本身不是一项艰巨的任务吗?
【问题讨论】:
【参考方案1】:提供概率意味着您正在采取一个场景,您正在提供历史上采取的行动,例如来自日志,而不是执行真实的在线场景。这很有用,因为(至少部分)Vowpal 的 Contextual Bandits 模型可以从历史数据中引导。这意味着,根据历史数据学习的 Contextual Bandits 策略可以胜过从头开始在线学习的策略——只有当您拥有与您的在线场景相关的历史数据时,您才能做到这一点。
最近对Wiki page 进行了编辑,以更好地反映这种格式适用于这种情况。
另一个包含概率的(人为的)用例可能是您针对多种环境采取行动,但无论如何,据我所知,这里的概率可以解释为纯粹的频率。
因此,我的理解是,当不提供历史交互数据时,您不必在输入中提供概率部分。像the example here一样跳过它。
【讨论】:
以上是关于使用 Vowpal wabbit 的上下文强盗的主要内容,如果未能解决你的问题,请参考以下文章