PyTorch nn.RNN 参数全解析

Posted 2022-06-20 raelum

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了PyTorch nn.RNN 参数全解析相关的知识，希望对你有一定的参考价值。

一、简介

torch.nn.RNN 用于构建循环层，其中的计算规则如下：

$\\boldsymbolh_t=\\tanh(\\bf W_ih\\boldsymbolx_t+\\boldsymbolb_ih+\\bf W_hh\\boldsymbolh_t-1+\\boldsymbolb_hh) \\tag1$

其中 $\\boldsymbolh_t$ 是 $t$ 时刻的隐层状态， $\\boldsymbolx_t$ 是 $t$ 时刻的输入。下标 $i$ 是 $i n p u t$ 的简写，下标 $h$ 是 $h i d d e n$ 的简写。 $\\bf W,\\boldsymbolb$ 分别是权重和偏置。

二、前置知识

先回顾一下普通的神经网络，我们在训练它的过程中通常会投喂一小批量的数据。不妨设 $batch_size = N \\textbatch\\_size=N$ ，则投喂的数据的形式为：

$\\bf X= \\beginbmatrix \\boldsymbolx_1^\\text T \\\\ \\vdots \\\\ \\boldsymbolx_N^\\text T \\endbmatrix_N\\times d$

其中 $\\boldsymbolx_i=(x_i1,x_i2,\\cdots,x_id)^\\text T$ 为特征向量，维数为 $d$ 。

在处理序列问题中，我们会将词元转化成对应的特征向量。例如在处理一个英文句子时，我们通常会通过某种手段将每个单词转化为合适的特征向量。设序列（句子）长度为 $L$ ，于是在此情景下，一个句子可以表示为：

$\\textseq_i= \\beginbmatrix \\boldsymbolx_i1^\\text T \\\\ \\vdots \\\\ \\boldsymbolx_iL^\\text T \\endbmatrix_L\\times d$

其中的每个 $\\boldsymbolx_ij,\\;j=1,\\cdots, L$ 都对应了句子 $\\textseq_i$ 中的一个单词。在上述约定下，我们在 $t$ 时刻投喂给RNN的数据为：

$\\bf X_t= \\beginbmatrix \\boldsymbolx_1t^\\text T \\\\ \\vdots \\\\ \\boldsymbolx_Nt^\\text T \\endbmatrix_N\\times d\\tag2$

从而 $(1)$ 式改写为

$\\bf H_t=\\tanh(\\bf X_t\\bf W_ih+\\boldsymbolb_ih+\\bf H_t-1\\bf W_hh+\\boldsymbolb_hh)\\tag3$

其中 $\\bf H_t,\\bf H_t-1$ 的形状为 $N\\times h$ ， $\\bf W_ih$ 的形状为 $d\\times h$ ， $\\bf W_hh$ 的形状为 $h\\times h$ ， $\\boldsymbolb_ih,\\boldsymbolb_hh$

PyTorch nn.RNN 参数全解析

目录

一、简介

二、前置知识