pytorch之求梯度和nn.Linear的理解

Posted Icy Hunter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了pytorch之求梯度和nn.Linear的理解相关的知识,希望对你有一定的参考价值。

文章目录

前言


假设有这么个简单的神经网络结构。
这篇文章可以说是机器学习之神经网络的公式推导与python代码(手写+pytorch)实现

补充。

pytorch求梯度

例1

pytorch里的数据结构称之为张量(tensor),因为能够自动求导,方便我们模型的计算。
因为计算梯度会自动保留梯度,隐藏需要及时清空梯度才能得到正确的结果。

import torch
from torch.autograd import Variable
def f(x):
    y = x ** 3
    return y
# y = x ^ 3
# y' = 3 * x ^ 2 

def main1():
    x = Variable(torch.tensor([5.0]), requires_grad=True)
    y = f(x)
    y.backward(retain_graph=True)
    print(x.grad) # 75
    y.backward(retain_graph=True)
    print(x.grad) # 75 + 75
    x.grad.data.zero_() # 清空梯度
    y.backward()
    print(x.grad) # 75
main1()

输出

例2

import torch
from torch.autograd import Variable
def f(x):
    y =  1 / x
    return y

# y = 1 / x
# y' = - 1 / x^2
def main1():
    x = Variable(torch.tensor([2.0]), requires_grad=True)
    y = f(x)
    y.backward(retain_graph=True)
    print(x.grad) # 在x=2这点的y的导数= -1/2^2 = -0.25
    y.backward(retain_graph=True)
    print(x.grad) # 因为上一次没清空,所以会累加
    x.grad.data.zero_() # 清空梯度
    y.backward()
    print(x.grad) # -0.25
main1()

输出:

nn.Linear()

这个就是我们经常使用的全连接层了。
其实就是一组权重。
我们可以通过示例理解一下。

import torch.nn as nn
import torch as th
demo = nn.Linear(2, 3, bias=False)
print(demo.weight)

首先定义一个全连接层实例,输入为2输出为3
打印一下权重(因为随机初始化,每次可能不一样)

可以发现这就是一个2x3的权重矩阵。能够将2维全连接转成3维(5x2 输入得出 5x3(5x2 2x3 ))

然后我们输入数据看看:

data = th.tensor([1.0, 1.0])
res = demo(data)
print(res)

将数据输入全连接层,可以得到如下输出:

其实就是经过了个矩阵乘法得到的,我们可以用numpy验证一下。

首先我们将全连接层的权重取出来转换成numpy数组,然后我们都知道np.dot就是矩阵乘法,这样就能够进行验证了

import numpy as np
demo2 = demo.weight.detach().numpy()
print(demo2)
print(demo2.shape)
data2 = data.detach().numpy()
print(np.dot(demo2, data2))

输出结果:

可以看到,输出结果和我们刚开始的nn.Linear的结果是一样,因此这个类其实就是相当于一个权重矩阵,传入的数据通过矩阵乘法得到输出的结果。

总结


那么这个网络用pytorch如何实现呢?
那就非常简单了,两个nn.Linear就行了:


class network(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super().__init__()
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size
        self.w1 = nn.Linear(input_size, hidden_size, bias=False)
        self.w2 = nn.Linear(hidden_size, output_size, bias=False)
        self.sigmoid = nn.Sigmoid()
        
    def forward(self, x):
        i2h = self.w1(x)
        i2h = self.sigmoid(i2h)
        h2o = self.w2(i2h)
        h2o = self.sigmoid(h2o)
        return h2o

其中w1就相当于vij的系数矩阵
w2就相当于wjk的系数矩阵
然后forward就是进行正向传播计算。
反向传播的话就是后面计算出损失后,调用backward一句话就好了。

应该比手写简介且好理解吧。

以上是关于pytorch之求梯度和nn.Linear的理解的主要内容,如果未能解决你的问题,请参考以下文章

深入理解PyTorch中的nn.Embedding

PyTorch nn.Linear layer output nan 在格式良好的输入和权重上

pytorch 是不是在 nn.Linear 中自动应用 softmax

pytorch nn.Linear()详解

pytorch中的神经网络子模块(线性模块)——torch.nn.Linear

关于对PyTorch中nn.Linear的官方API文档解读