如何更新 keras 中的权重以进行强化学习?

Posted

技术标签:

【中文标题】如何更新 keras 中的权重以进行强化学习?【英文标题】:How to update weights in keras for reinforcement learning? 【发布时间】:2017-02-18 11:24:28 【问题描述】:

我正在从事强化学习计划,我将这篇文章用作reference。我正在使用带有 keras(theano) 的 python 来创建神经网络,我用于该程序的伪代码是

Do a feedforward pass for the current state s to get predicted Q-values for all actions.

Do a feedforward pass for the next state s’ and calculate maximum overall network outputs max a’ Q(s’, a’).

Set Q-value target for action to r + γmax a’ Q(s’, a’) (use the max calculated in step 2). For all other actions, set the Q-value target to the same as originally returned from step 1, making the error 0 for those outputs.

Update the weights using backpropagation.

这里的损失函数方程是这样的

我的奖励是 +1,maxQ(s',a') =0.8375 和 Q(s,a)=0.6892

我的 L 是1/2*(1+0.8375-0.6892)^2=0.659296445

如果我的模型结构是这样的,我应该如何使用上述损失函数值更新我的模型神经网络权重

model = Sequential()
model.add(Dense(150, input_dim=150))
model.add(Dense(10))
model.add(Dense(1,activation='sigmoid'))
model.compile(loss='mse', optimizer='adam')

【问题讨论】:

【参考方案1】:

假设 NN 正在对 Q 值函数进行建模,您只需将目标传递给网络。例如

model.train_on_batch(state_action_vector, target)

其中 state_action_vector 是一些预处理向量,表示网络的状态动作输入。由于您的网络使用的是 MSE 损失函数,因此它将使用前向传递上的状态动作计算预测项,然后根据您的目标更新权重。

【讨论】:

请提供更详细的描述。谢谢

以上是关于如何更新 keras 中的权重以进行强化学习?的主要内容,如果未能解决你的问题,请参考以下文章

强化学习基础介绍

使用 Keras 获取模型输出 w.r.t 权重的梯度

如何使用 PyTorch DataLoader 进行强化学习?

使用强化学习进行多标准优化

强化学习

强化学习中的脉冲神经网络