自定义 RL 环境的意外动作分布

Posted 2023-03-27

技术标签:

【中文标题】自定义 RL 环境的意外动作分布【英文标题】：Unexpected action distribution for custom RL environment 【发布时间】：2020-09-22 07:24:38 【问题描述】：

我正在创建一个自定义环境并在上面训练一个 RL 代理。

我使用的是 stable-baselines，因为它似乎实现了所有最新的 RL 算法，并且似乎尽可能接近“即插即用”（我想专注于创建环境和奖励函数，而不是模型本身的实现细节）

我的环境有一个大小为 127 的动作空间，并将其解释为 one-hot 向量：将向量中最高值的索引作为输入值。为了调试，我创建了一个条形图，显示每个值被“调用”了多少次

在训练之前，我希望图表显示“事件”的大致均匀分布：

但行动规范下端的“事件”比其他事件更有可能：

我创建了一个colab 来解释和重现该问题

我在github issue 中提出了这个问题，但他们建议我在这里发布问题

【问题讨论】：

【参考方案1】：

model.predict(obs) 将每个动作剪辑到[-1, 1] 范围内（因为这是您定义动作空间的方式）。因此，您的操作值数组看起来像

print(action)
# [-0.2476,  0.7068,  1.,          -1.,           1.,           1., 
#   0.1005,  -0.937,   -1. , ...]

也就是说，所有大于 1 的动作都被截断/剪裁为 1，因此存在多个最大动作。在您的环境中，您计算 numpy argmax pitch = np.argmax(action)，它返回 第一个 最大值的索引，而不是随机选择的索引（如果有多个最大值）。

您可以如下选择“随机 argmax”。

max_indeces = np.where(action == action.max())[0]
any_argmax = np.random.choice(max_indeces)

我相应地更改了您的环境 here。

【讨论】：

以上是关于自定义 RL 环境的意外动作分布的主要内容，如果未能解决你的问题，请参考以下文章