了解 torch.nn.Parameter
Posted
技术标签:
【中文标题】了解 torch.nn.Parameter【英文标题】:Understanding torch.nn.Parameter 【发布时间】:2018-11-28 19:51:07 【问题描述】:我是 pytorch 的新手,我很难理解 torch.nn.Parameter()
的工作原理。
我已经阅读了https://pytorch.org/docs/stable/nn.html 中的文档,但可能对此知之甚少。
有人可以帮忙吗?
我正在处理的代码 sn-p:
def __init__(self, weight):
super(Net, self).__init__()
# initializes the weights of the convolutional layer to be the weights of the 4 defined filters
k_height, k_width = weight.shape[2:]
# assumes there are 4 grayscale filters
self.conv = nn.Conv2d(1, 4, kernel_size=(k_height, k_width), bias=False)
self.conv.weight = torch.nn.Parameter(weight)
【问题讨论】:
这个话题似乎很有趣,也许你想发布一段你想讨论的代码? 嘿 iGian,我已经发布了我正在处理的代码 sn-p。提前致谢。 【参考方案1】:我会为你分解它。您可能知道,张量是多维矩阵。参数的原始形式是张量,即多维矩阵。它是变量类的子类。
变量和参数之间的区别在于与模块关联时。当参数作为模型属性与模块关联时,它会自动添加到参数列表中,并且可以使用“参数”迭代器进行访问。
最初在 Torch 中,变量(例如可能是中间状态)也会在分配时作为模型的参数添加。后来发现了需要缓存变量而不是将它们添加到参数列表中的用例。
文档中提到的一种情况是 RNN,在这种情况下,您需要保存最后一个隐藏状态,这样您就不必一次又一次地传递它。需要缓存一个变量,而不是让它自动注册为模型的参数,这就是为什么我们有一种显式的方式将参数注册到我们的模型,即 nn.Parameter 类。
例如,运行以下代码 -
import torch
import torch.nn as nn
from torch.optim import Adam
class NN_Network(nn.Module):
def __init__(self,in_dim,hid,out_dim):
super(NN_Network, self).__init__()
self.linear1 = nn.Linear(in_dim,hid)
self.linear2 = nn.Linear(hid,out_dim)
self.linear1.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
self.linear1.bias = torch.nn.Parameter(torch.ones(hid))
self.linear2.weight = torch.nn.Parameter(torch.zeros(in_dim,hid))
self.linear2.bias = torch.nn.Parameter(torch.ones(hid))
def forward(self, input_array):
h = self.linear1(input_array)
y_pred = self.linear2(h)
return y_pred
in_d = 5
hidn = 2
out_d = 3
net = NN_Network(in_d, hidn, out_d)
现在,检查与此模型相关的参数列表 -
for param in net.parameters():
print(type(param.data), param.size())
""" Output
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
<class 'torch.FloatTensor'> torch.Size([5, 2])
<class 'torch.FloatTensor'> torch.Size([2])
"""
或者试试,
list(net.parameters())
这可以很容易地提供给您的优化器 -
opt = Adam(net.parameters(), learning_rate=0.001)
另外,请注意Parameters默认设置了require_grad。
【讨论】:
很好的解释!谢谢~@Astha Sharma 感谢您的精彩解释。关于您提供的代码,我有一个快速的问题。如self.linear2
线性网络有(hid,out_dim)
作为它的输入和输出维度,那么它对应的参数self.linear2.weight
是如何像torch.zeros(in_dim,hid)
那样有维度(in_dim, hid)
的呢?谢谢
如果我可以通过require_grad=False
关闭梯度计算,那么拥有参数有什么意义?
@anurag Parameter
是告诉 Pytorch 某些参数是可学习的正确方法。 require_grad
是告诉 Pyotrch 是否要修改参数的标志。【参考方案2】:
最近的 PyTorch 版本只有张量,但变量的概念已被弃用。
Parameters 只是张量,仅限于定义它们的模块(在模块构造函数__init__
方法中)。
它们将出现在module.parameters()
中。
当您构建通过这些参数梯度下降来学习的自定义模块时,这会很方便。
任何对 PyTorch 张量正确的东西对参数都是正确的,因为它们是张量。
此外,如果一个模块进入 GPU,参数也会进入。如果一个模块被保存,参数也会被保存。
有一个类似于模型参数的概念,称为buffers。
这些在模块中被命名为张量,但这些张量并不是要通过梯度下降来学习,而是你可以认为它们就像变量一样。您将根据需要更新模块 forward() 中的命名缓冲区。
对于buffer来说,也确实会和模块一起去GPU,和模块一起保存。
【讨论】:
Parameter
s 只有有限在__init__()
中使用吗?
否,但最常见的是在 __init__
方法中定义它们。以上是关于了解 torch.nn.Parameter的主要内容,如果未能解决你的问题,请参考以下文章