如何在 TensorFlow 中处理具有可变长度序列的批次?

Posted

技术标签:

【中文标题】如何在 TensorFlow 中处理具有可变长度序列的批次?【英文标题】:How to deal with batches with variable-length sequences in TensorFlow? 【发布时间】:2016-04-12 17:26:19 【问题描述】:

我尝试使用 RNN(特别是 LSTM)进行序列预测。但是,我遇到了可变序列长度的问题。例如,

sent_1 = "I am flying to Dubain"
sent_2 = "I was traveling from US to Dubai"

我正在尝试使用基于 Benchmark for building a PTB LSTM model 的简单 RNN 预测当前单词之后的下一个单词。

但是,num_steps 参数(用于展开到先前的隐藏状态)在每个 Tensorflow 的 epoch 中应该保持不变。基本上,批处理句子是不可能的,因为句子的长度不同。

 # inputs = [tf.squeeze(input_, [1])
 #           for input_ in tf.split(1, num_steps, inputs)]
 # outputs, states = rnn.rnn(cell, inputs, initial_state=self._initial_state)

在这里,num_steps 需要在我的情况下为每个句子进行更改。我尝试了几种 hack,但似乎没有任何效果。

【问题讨论】:

链接需要谷歌账户才能阅读。 【参考方案1】:

您可以使用以下描述的分桶和填充的想法:

    Sequence-to-Sequence Models

另外,创建RNN网络的rnn函数接受参数sequence_length。

例如,您可以创建相同大小的句子桶,用必要数量的零填充它们,或者用代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words) 一起提供。

seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs, initial_state=initial_state, sequence_length=seq_length)

sess = tf.Session()
feed = 
    seq_length: 20,
    #other feeds

sess.run(outputs, feed_dict=feed)

也看看这个 reddit 线程:

   Tensorflow basic RNN example with 'variable length' sequences

【讨论】:

您是否使用零细化填充句子(或较大的文本块)会导致梯度消失问题?举个例子,如果我们最长的句子有 1000 个单词,而其他大多数只有大约 100 个单词,你认为输入中的大量零会导致梯度消失吗? @MikeKhan,这是一个合理的担忧。解决此问题的一种方法是将您的数据分批成统一长度的批次,因为 timesteps 参数不需要在批次之间保持统一。【参考方案2】:

您可以改用dynamic_rnn 并通过将数组传递给sequence_length 参数来指定每个序列的长度,即使在一个批次中也是如此。 示例如下:

def length(sequence):
    used = tf.sign(tf.reduce_max(tf.abs(sequence), reduction_indices=2))
    length = tf.reduce_sum(used, reduction_indices=1)
    length = tf.cast(length, tf.int32)
    return length

from tensorflow.nn.rnn_cell import GRUCell

max_length = 100
frame_size = 64
num_hidden = 200

sequence = tf.placeholder(tf.float32, [None, max_length, frame_size])
output, state = tf.nn.dynamic_rnn(
    GRUCell(num_hidden),
    sequence,
    dtype=tf.float32,
    sequence_length=length(sequence),
)

代码取自关于该主题的perfect article,也请查看。

更新:dynamic_rnnrnn 上的另一个 great post 你可以找到

【讨论】:

这里当我们得到不同大小的 seq2seq 时会发生什么? lstm 被填充到最大的一个吗? 在这种情况下不会发生填充,因为我们明确地将每个序列的长度传递给函数 此函数仅在序列不包含所有元素为零的帧时有效【参考方案3】:

您可以使用

中描述的分桶和填充的想法

   Sequence-to-Sequence Models

创建RNN网络的rnn函数也接受参数sequence_length。

例如,您可以创建相同大小的句子桶,用必要数量的零或代表零字的占位符填充它们,然后将它们与 seq_length = len(zero_words) 一起提供。

seq_length = tf.placeholder(tf.int32)
outputs, states = rnn.rnn(cell, inputs,initial_state=initial_state,sequence_length=seq_length)

sess = tf.Session()
feed = 
seq_lenght: 20,
#other feeds
       
sess.run(outputs, feed_dict=feed)

这里,最重要的是,如果你想利用一个句子获得的状态作为下一个句子的状态,当你提供sequence_length时,(假设是20,填充后的句子是50) .您想要在第 20 个时间步获得的状态。为此,做

tf.pack(states)

在那次通话之后

for i in range(len(sentences)):
state_mat   = session.run([states],
            m.input_data: x,m.targets: y,m.initial_state: state,     m.early_stop:early_stop )
state = state_mat[early_stop-1,:,:]

【讨论】:

【参考方案4】:

您可以限制输入序列的最大长度,将较短的序列填充到该长度,记录每个序列的长度并使用 tf.nn.dynamic_rnn 。它像往常一样处理输入序列,但在序列的最后一个元素(由seq_length 指示)之后,它只是复制单元状态,并输出零张量。

【讨论】:

在推理过程中是否可以对超过最大序列长度的句子进行推理? @SonalGupta - 你能说得更具体些吗? @SonalGupta 是的。在干扰期间,一次只输入一个时间步长,即您只展开一个时间步长的 RNN。 @Seja Nair:抱歉,我的问题中有一个错字:“在训练期间是否可以推断出超过最大序列长度的句子?”。更具体地说:***.com/questions/39881639/… @tnq177:这不是说它是一个顺序模型吗?【参考方案5】:

很抱歉发布一个死问题,但我刚刚提交了一个 PR 以获得更好的解决方案。 dynamic_rnn 非常灵活,但速度极慢。如果它是您唯一的选择,它会起作用,但 CuDNN 更快。此 PR 为 CuDNNLSTM 添加了对可变长度的支持,因此您有望很快能够使用它。

您需要按长度降序对序列进行排序。然后你可以pack_sequence,运行你的RNN,然后unpack_sequence

https://github.com/tensorflow/tensorflow/pull/22308

【讨论】:

以上是关于如何在 TensorFlow 中处理具有可变长度序列的批次?的主要内容,如果未能解决你的问题,请参考以下文章

TensorFlow:如何使用具有可变输入长度的 CudnnLSTM(如 dynamic_rnn)?

测试精度 0.5 TensorFlow RNN 可变长度字符串

从C中的函数返回具有多个可变长度数组的结构

如何自定义一个长度可变数组

如何在第二级具有可变长度的MultiIndex DataFrame中获取第二级的所有最后一行

如何生成具有可变长度的随机字符串