观察的意义 - OpenAI Gym

Posted

技术标签:

【中文标题】观察的意义 - OpenAI Gym【英文标题】:Observations meaning - OpenAI Gym 【发布时间】:2017-01-13 11:05:33 【问题描述】:

我想知道CartPole-v0在OpenAI Gym(https://gym.openai.com/)中的观察规范。

例如,在以下代码中输出observation。一项观察就像[-0.061586 -0.75893141 0.05793238 1.15547541] 我想知道这些数字的含义。我想知道其他Environments的规格,例如MountainCar-v0MsPacman-v0等等。

我尝试阅读https://github.com/openai/gym,但我不知道。你能告诉我了解规格的方法吗?

import gym
env = gym.make('CartPole-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after  timesteps".format(t+1))
            break

(来自https://gym.openai.com/docs)

输出如下

[-0.061586   -0.75893141  0.05793238  1.15547541]
[-0.07676463 -0.95475889  0.08104189  1.46574644]
[-0.0958598  -1.15077434  0.11035682  1.78260485]
[-0.11887529 -0.95705275  0.14600892  1.5261692 ]
[-0.13801635 -0.7639636   0.1765323   1.28239155]
[-0.15329562 -0.57147373  0.20218013  1.04977545]
Episode finished after 14 timesteps
[-0.02786724  0.00361763 -0.03938967 -0.01611184]
[-0.02779488 -0.19091794 -0.03971191  0.26388759]
[-0.03161324  0.00474768 -0.03443415 -0.04105167]

【问题讨论】:

我相信这是类github.com/openai/gym/blob/master/gym/envs/classic_control/… 【参考方案1】:

OpenAI Gym 中使用的观察空间与原论文并不完全相同。看看 OpenAI 的wiki 就能找到答案。观察空间是一个4维空间,每个维度如下:

Num Observation Min Max 0 Cart Position -2.4 2.4 1 Cart Velocity -Inf Inf 2 Pole Angle ~ -41.8° ~ 41.8° 3 Pole Velocity At Tip -Inf Inf

【讨论】:

【参考方案2】:

在 OpenAI Gym 网站中描述每个环境的段落之后,您总是有一个详细解释环境的参考,例如,在 CartPole-v0 的情况下,您可以在以下位置找到所有详细信息:

[Barto83] AG Barto、RS Sutton 和 CW Anderson,“可以解决困难学习控制问题的神经元自适应元素”,IEEE Transactions on Systems, Man, and Cyber​​netics,1983 年。

在那篇论文中你可以读到,cart-pole 有四个状态变量:

    小车在轨道上的位置 杆与垂直的角度 小车速度 角度变化率

所以,observation 只是一个包含四个状态变量值的向量。

同样,MountainCar-v0 的详细信息可以在

中找到

[Moore90] A Moore,基于记忆的高效机器人控制学习,博士论文,剑桥大学,1990 年。

等等。

【讨论】:

以上是关于观察的意义 - OpenAI Gym的主要内容,如果未能解决你的问题,请参考以下文章

openai/gym 中各种环境(Env)的参数解释

怎么在anaconda上安装openai gym 在windows里

强化学习 平台 openAI 的 gym 安装 (Ubuntu环境下如何安装Python的gym模块)

openAi-gym 名称错误

openai gym 环境配置

OpenAI Gym 入门与提高 Gym环境构建与最简单的RL agent