如何正确更新 PyTorch 中的权重?

Posted

技术标签:

【中文标题】如何正确更新 PyTorch 中的权重?【英文标题】:How to properly update the weights in PyTorch? 【发布时间】:2019-06-24 02:48:56 【问题描述】:

我正在尝试根据 schema 使用 PyTorch 实现梯度下降,但无法弄清楚如何正确更新权重。这只是一个玩具示例,有 2 个线性层,隐藏层中有 2 个节点和一个输出。

Learning rate = 0.05;
target output = 1

https://hmkcode.github.io/ai/backpropagation-step-by-step/

Forward

Backward

我的代码如下:

    import torch
    import torch.nn as nn
    import torch.nn.functional as F
    import torch.optim as optim

    class MyNet(nn.Module):

    def __init__(self):
         super(MyNet, self).__init__()
         self.linear1 = nn.Linear(2, 2,  bias=None)
         self.linear1.weight = torch.nn.Parameter(torch.tensor([[0.11, 0.21], [0.12, 0.08]]))
         self.linear2 = nn.Linear(2, 1,  bias=None)
         self.linear2.weight = torch.nn.Parameter(torch.tensor([[0.14, 0.15]]))

    def forward(self, inputs):
         out = self.linear1(inputs)
         out = self.linear2(out)
         return out

    losses = []
    loss_function = nn.L1Loss()
    model = MyNet()
    optimizer = optim.SGD(model.parameters(), lr=0.05)
    input = torch.tensor([2.0,3.0])
    print('weights before backpropagation = ',   list(model.parameters()))
    for epoch in range(1):
       result = model(input )
       loss = loss_function(result , torch.tensor([1.00],dtype=torch.float))
       print('result = ', result)
       print("loss = ",   loss)
       model.zero_grad()
       loss.backward()
       print('gradients =', [x.grad.data  for x in model.parameters()] )
       optimizer.step()
       print('weights after backpropagation = ',   list(model.parameters())) 

结果如下:

    weights before backpropagation =  [Parameter containing:
    tensor([[0.1100, 0.2100],
            [0.1200, 0.0800]], requires_grad=True), Parameter containing:
    tensor([[0.1400, 0.1500]], requires_grad=True)]

    result =  tensor([0.1910], grad_fn=<SqueezeBackward3>)
    loss =  tensor(0.8090, grad_fn=<L1LossBackward>)

    gradients = [tensor([[-0.2800, -0.4200], [-0.3000, -0.4500]]), 
                 tensor([[-0.8500, -0.4800]])]

    weights after backpropagation =  [Parameter containing:
    tensor([[0.1240, 0.2310],
            [0.1350, 0.1025]], requires_grad=True), Parameter containing:
    tensor([[0.1825, 0.1740]], requires_grad=True)]

前传值:

2x0.11 + 3*0.21=0.85 ->  
2x0.12 + 3*0.08=0.48 -> 0.85x0.14 + 0.48*0.15=0.191 -> loss =0.191-1 = -0.809  

后向传递:让我们计算 w5 和 w6(输出节点权重)

w = w - (prediction-target)x(gradient)x(output of previous node)x(learning rate)  
w5= 0.14 -(0.191-1)*1*0.85*0.05= 0.14 + 0.034= 0.174  
w6= 0.15 -(0.191-1)*1*0.48*0.05= 0.15 + 0.019= 0.169 

在我的示例中,Torch 不会将损失乘以导数,因此我们在更新后得到错误的权重。对于输出节点,我们得到了新的权重 w5,w6 [0.1825, 0.1740] ,它应该是 [0.174, 0.169]

向后移动以更新我们需要计算的输出节点 (w5) 的第一个权重:(prediction-target)x(gradient)x(output of previous node)x(learning rate)=-0.809*1*0.85*0.05=-0.034。更新重量w5 = 0.14-(-0.034)=0.174。但相反 pytorch 计算了new weight = 0.1825。它忘记乘以(prediction-target)=-0.809。对于输出节点,我们得到梯度 -0.8500 和 -0.4800。但我们仍然需要将它们乘以损失 0.809 和学习率 0.05,然后才能更新权重。

这样做的正确方法是什么? 我们是否应该将“损失”作为参数传递给backward(),如下所示:loss.backward(loss)

这似乎解决了它。但我在文档中找不到任何关于此的示例。

【问题讨论】:

您应该使用loss.zero_grad() 而不是model.zero_grad()。这是因为当你做loss.backward() 时梯度会累积(加起来),所以你应该在取另一个loss.backward()optimizer.step() 之前将它们归零。 实际上 loss.zero_grad() 给了我错误。 “张量”对象没有属性“zero_grad”。在 pytorch 教程中,他们使用 model.zero_grad()。 pytorch.org/tutorials/beginner/nlp/… 但我的问题是为什么我的模型在我做 loss.backward() 和 optimizer.step() 时不能正确计算新的权重 是的,对不起,optimizer.zero_grad() 是正确的。 【参考方案1】:

您应该将.zero_grad() 与优化器一起使用,所以optimizer.zero_grad(),而不是cmets 中建议的损失或模型(虽然模型很好,但IMO 不清楚或不可读)。

除了你的参数更新得很好,所以错误不在PyTorch这边。

根据您提供的渐变值:

gradients = [tensor([[-0.2800, -0.4200], [-0.3000, -0.4500]]), 
             tensor([[-0.8500, -0.4800]])]

让我们将所有这些乘以您的学习率 (0.05):

gradients_times_lr = [tensor([[-0.014, -0.021], [-0.015, -0.0225]]), 
                      tensor([[-0.0425, -0.024]])]

最后,让我们应用普通的 SGD (theta -= gradient * lr),得到与 PyTorch 中完全相同的结果:

parameters = [tensor([[0.1240, 0.2310], [0.1350, 0.1025]]),
              tensor([[0.1825, 0.1740]])]

您所做的是获取 PyTorch 计算的梯度,并将它们与前一个节点的输出相乘,这不是它的工作原理!

你做了什么:

w5= 0.14 -(0.191-1)*1*0.85*0.05= 0.14 + 0.034= 0.174  

应该做什么(使用 PyTorch 的结果):

w5 = 0.14 - (-0.85*0.05) = 0.1825

不与前一个节点相乘,它是在幕后完成的(这就是.backprop() 所做的 - 计算所有节点的正确梯度),无需将它们与前一个节点相乘。

如果你想手动计算它们,你必须从损失开始(delta 为一)并一直反向传播(这里不要使用学习率,这是另一回事! )。

在计算完所有权重后,您可以将每个权重乘以优化器的学习率(或任何其他公式,例如 Momentum),然后您就有了正确的更新。

如何计算反向传播

学习率不是反向传播的一部分,在计算所有梯度之前不要管它(它将单独的算法、优化过程和反向传播混淆在一起)。

1。总误差 w.r.t 的导数输出

好吧,我不知道您为什么要使用 平均绝对误差(而在本教程中它是 均方误差),这就是这两个结果不同的原因.但是,让我们继续您的选择。

| 的导数y_true - y_pred | w.r.t. to y_pred 为 1,因此 IT IS NOT 与 loss 相同。更改为 MSE 以获得相等的结果(此处,导数将为 (1/2 * y_pred - y_true),但我们通常将 MSE 乘以 2 以消除第一个乘法)。

MSE 的情况下,您将乘以损失值,但这完全取决于损失函数(有点遗憾,您使用的教程没有指出这一点)。

2。总误差 w.r.t 的导数w5

您可能可以从这里开始,但是......总误差 w.r.t 到 w5 的导数是 h1 的输出(在这种情况下为 0.85)。我们将它乘以总误差 w.r.t 的导数。输出(它是 1!)并获得 0.85,就像在 PyTorch 中所做的那样。 w6 也有同样的想法。

我认真地建议你不要将学习率与反向传播混淆,你会让你的生活变得更加艰难(反向传播 IMO 并不容易,非常违反直觉),这是两件不同的事情(可以' t 强调这一点就足够了)。

This 源代码很好,更循序渐进,带有更复杂的网络概念(包括激活),所以如果你经历了所有这些,你可以更好地掌握。

此外,如果您真的很热衷(而且您似乎很热衷),想了解更多细节,请计算其他优化器(例如,nesterov)的权重校正,这样您就知道为什么我们应该将这些想法分开.

【讨论】:

那么我们应该如何在这里应用增量规则? Pytorch 在更新权重时所做的是 w5 = 0.14 - (-0.85*0.05) = 0.1825 (0.85 是前一个节点的输出),但我们这里缺少 delta (prediction - target),即 (0.191-1) 。根据 delta 规则,它应该是:w = w - (预测目标)x(梯度)x(前一个节点的输出)x(学习率) 所以正确的重量应该计算为: w5= 0.14 -(0.191-1)*1*0.85*0.05= 0.14 + 0.034= 0.174 。也是按照本教程hmkcode.github.io/ai/backpropagation-step-by-step 编辑失败了,我错过了你的L1Loss 部分,也很困惑,它消除了混乱吗? loss_function = nn.L1Loss()。它正确计算了损失。 0.809 = 1 - 0.191。但是在计算梯度时没有应用损失。 谢谢,它有帮助。实际上,我昨天尝试在您提供的链接中实现该示例,并且效果很好。所以在我的例子中,解决方案是: loss_function = nn.MSELoss() 和 loss = loss_function(result , torch.tensor([1.00]))/2

以上是关于如何正确更新 PyTorch 中的权重?的主要内容,如果未能解决你的问题,请参考以下文章

pytorch 冻结权重并更新 param_groups

如何使用 Pytorch 中的预训练权重修改具有 4 个通道作为输入的 resnet 50?

pytorch 中 conv 的默认权重初始化器是啥?

1. PyTorch是什么?

1. PyTorch是什么?

[深度学习][pytorch]pytorch实现一个简单得线性回归模型并训练