使用 Vowpal wabbit 的上下文强盗

Posted

技术标签:

【中文标题】使用 Vowpal wabbit 的上下文强盗【英文标题】:Contextual Bandit using Vowpal wabbit 【发布时间】:2015-08-06 20:42:25 【问题描述】:

在这种情况下,输入之一是选择手臂/动作的概率,但我们如何找到该概率? 找到这个概率本身不是一项艰巨的任务吗?

【问题讨论】:

【参考方案1】:

提供概率意味着您正在采取一个场景,您正在提供历史上采取的行动,例如来自日志,而不是执行真实的在线场景。这很有用,因为(至少部分)Vowpal 的 Contextual Bandits 模型可以从历史数据中引导。这意味着,根据历史数据学习的 Contextual Bandits 策略可以胜过从头开始在线学习的策略——只有当您拥有与您的在线场景相关的历史数据时,您才能做到这一点。

最近对Wiki page 进行了编辑,以更好地反映这种格式适用于这种情况。

另一个包含概率的(人为的)用例可能是您针对多种环境采取行动,但无论如何,据我所知,这里的概率可以解释为纯粹的频率。

因此,我的理解是,当不提供历史交互数据时,您不必在输入中提供概率部分。像the example here一样跳过它。

【讨论】:

以上是关于使用 Vowpal wabbit 的上下文强盗的主要内容,如果未能解决你的问题,请参考以下文章

Vowpal Wabbit Logistic 回归

Vowpal Wabbit 的梯度提升

使用 Vowpal Wabbit 时计算 AUC

Vowpal Wabbit:不平衡的类

Vowpal Wabbit 多类线性分类

Vowpal Wabbit中逻辑回归的正确性?