使用 Vowpal wabbit 的上下文强盗

Posted 2023-03-13

技术标签:

【中文标题】使用 Vowpal wabbit 的上下文强盗【英文标题】：Contextual Bandit using Vowpal wabbit 【发布时间】：2015-08-06 20:42:25 【问题描述】：

在这种情况下，输入之一是选择手臂/动作的概率，但我们如何找到该概率？找到这个概率本身不是一项艰巨的任务吗？

【问题讨论】：

【参考方案1】：

提供概率意味着您正在采取一个场景，您正在提供历史上采取的行动，例如来自日志，而不是执行真实的在线场景。这很有用，因为（至少部分）Vowpal 的 Contextual Bandits 模型可以从历史数据中引导。这意味着，根据历史数据学习的 Contextual Bandits 策略可以胜过从头开始在线学习的策略——只有当您拥有与您的在线场景相关的历史数据时，您才能做到这一点。

最近对Wiki page 进行了编辑，以更好地反映这种格式适用于这种情况。

另一个包含概率的（人为的）用例可能是您针对多种环境采取行动，但无论如何，据我所知，这里的概率可以解释为纯粹的频率。

因此，我的理解是，当不提供历史交互数据时，您不必在输入中提供概率部分。像the example here一样跳过它。

【讨论】：

以上是关于使用 Vowpal wabbit 的上下文强盗的主要内容，如果未能解决你的问题，请参考以下文章

Vowpal Wabbit Logistic 回归

Vowpal Wabbit 的梯度提升

使用 Vowpal Wabbit 时计算 AUC

Vowpal Wabbit：不平衡的类

Vowpal Wabbit 多类线性分类

Vowpal Wabbit中逻辑回归的正确性？