Keras嵌入层：将零填充值保持为零

Posted 2023-02-23

技术标签:

【中文标题】Keras嵌入层：将零填充值保持为零【英文标题】：Keras Embedding Layer: keep zero-padded values as zeros 【发布时间】：2019-11-09 21:42:59 【问题描述】：

我一直在考虑单词序列的 0-padding 以及如何将 0-padding 转换为 Embedding 层。乍一看，人们会认为您也想保持嵌入 = 0.0。但是，keras 中的Embedding 层为任何输入令牌生成随机值，并且没有办法强制它生成 0.0。注意，mask_zero 做了一些不同的事情，我已经检查过了。

有人可能会问，为什么要担心这一点，即使嵌入不是 0.0，只要它们相同，代码似乎也可以工作。所以我想出了一个例子，虽然有点做作，将嵌入设置为 0.0 的填充标记为 0 会有所不同。

我使用了 20 个新闻组数据集 from sklearn.datasets import fetch_20newsgroups。我做了一些最小的预处理：删除标点符号、停用词和数字。我使用from keras.preprocessing.sequence import pad_sequences 填充0。我将大约 18K 的帖子分成训练和验证集，训练/验证的比例 = 4/1。我创建了一个简单的 1 密集隐藏层网络，输入是扁平化的嵌入序列：

    EMBEDDING_DIM = 300
    MAX_SEQUENCE_LENGTH = 1100
    layer_size = 25
    dropout = 0.3
    sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32', name='dnn_input')
    embedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, input_length=MAX_SEQUENCE_LENGTH, name = 'embedding_dnn')
    embedded_sequences = embedding_layer(sequence_input)
    x = Flatten(name='flatten_dnn')(embedded_sequences)
    x = Dense(layer_size, activation='relu', name ='hidden_dense_dnn')(x)
    x = Dropout(dropout, name='dropout')(x)
    preds = Dense(num_labels, activation='softmax', name = 'output_dnn')(x)

    model = Model(sequence_input, preds)
    model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])

该模型有大约 1400 万个可训练参数（这个例子有点做作，正如我已经提到的）。当我训练它时

    earlystop = EarlyStopping(monitor='val_loss', patience=5)
    history = model.fit(x_train, y_train, validation_data=(x_test, y_test), epochs=30, batch_size=BATCH_SIZE, callbacks=[earlystop])

看起来算法在 4 个 epoch 中都在努力寻找摆脱“随机性”的方法：

Train on 15048 samples, validate on 3798 samples
Epoch 1/30
15048/15048 [==============================] - 58s 4ms/step - loss: 3.1118 - acc: 0.0519 - val_loss: 2.9894 - val_acc: 0.0534
Epoch 2/30
15048/15048 [==============================] - 56s 4ms/step - loss: 2.9820 - acc: 0.0556 - val_loss: 2.9827 - val_acc: 0.0527
Epoch 3/30
15048/15048 [==============================] - 55s 4ms/step - loss: 2.9712 - acc: 0.0626 - val_loss: 2.9718 - val_acc: 0.0579
Epoch 4/30
15048/15048 [==============================] - 55s 4ms/step - loss: 2.9259 - acc: 0.0756 - val_loss: 2.8363 - val_acc: 0.0874
Epoch 5/30
15048/15048 [==============================] - 56s 4ms/step - loss: 2.7092 - acc: 0.1390 - val_loss: 2.3251 - val_acc: 0.2796
...
Epoch 13/30
15048/15048 [==============================] - 56s 4ms/step - loss: 0.0698 - acc: 0.9807 - val_loss: 0.5010 - val_acc: 0.8736

最终的准确度约为 0.87

print ('Best validation accuracy is ', max(history.history['val_acc']))
Best validation accuracy is  0.874934175379845

但是，当我将填充的 0 的嵌入显式设置为 0.0 时

def myMask(x):
    mask= K.greater(x,0) #will return boolean values
    mask= K.cast(mask, dtype=K.floatx()) 
    return mask
layer_size = 25
dropout = 0.3
sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32', name='dnn_input')
embedding_layer = Embedding(len(word_index) + 1, EMBEDDING_DIM, input_length=MAX_SEQUENCE_LENGTH, name = 'embedding_dnn')
embedded_sequences = embedding_layer(sequence_input)
y = Lambda(myMask, output_shape=(MAX_SEQUENCE_LENGTH,))(sequence_input)
y = Reshape(target_shape=(MAX_SEQUENCE_LENGTH,1))(y)
merge_layer = Multiply(name = 'masked_embedding_dnn')([embedded_sequences,y])
x = Flatten(name='flatten_dnn')(merge_layer)
x = Dense(layer_size, activation='relu', name ='hidden_dense_dnn')(x)
x = Dropout(dropout, name='dropout')(x)
preds = Dense(num_labels, activation='softmax', name = 'output_dnn')(x)

model = Model(sequence_input, preds)
model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])

具有相同数量参数的模型会立即摆脱“随机性”：

Train on 15048 samples, validate on 3798 samples
Epoch 1/30
15048/15048 [==============================] - 64s 4ms/step - loss: 2.4356 - acc: 0.3060 - val_loss: 1.2424 - val_acc: 0.7754
Epoch 2/30
15048/15048 [==============================] - 61s 4ms/step - loss: 0.6973 - acc: 0.8267 - val_loss: 0.5240 - val_acc: 0.8797
...
Epoch 10/30
15048/15048 [==============================] - 61s 4ms/step - loss: 0.0496 - acc: 0.9881 - val_loss: 0.4176 - val_acc: 0.8944

最终的准确度更高，约为 0.9。

同样，这是一个有些人为的例子，但它仍然表明将这些“填充”嵌入保持在 0.0 可能是有益的。

我在这里遗漏了什么吗？如果我没有遗漏任何东西，那么 Keras 不提供开箱即用的功能的原因是什么？

更新

@DanielMöller 我尝试了你的建议：

layer_size = 25
dropout = 0.3
init = RandomUniform(minval=0.0001, maxval=0.05, seed=None)
constr = NonNeg()



sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32', name='dnn_input')
embedding_layer = Embedding(len(word_index) + 1, 
                            EMBEDDING_DIM, 
                            input_length=MAX_SEQUENCE_LENGTH, 
                            name = 'embedding_dnn', 
                            embeddings_initializer=init,
                            embeddings_constraint=constr)

embedded_sequences = embedding_layer(sequence_input)
y = Lambda(myMask, output_shape=(MAX_SEQUENCE_LENGTH,))(sequence_input)
y = Reshape(target_shape=(MAX_SEQUENCE_LENGTH,1))(y)
merge_layer = Multiply(name = 'masked_embedding_dnn')([embedded_sequences,y])
x = Flatten(name='flatten_dnn')(merge_layer)
x = Dense(layer_size, activation='relu', name ='hidden_dense_dnn')(x)
x = Dropout(dropout, name='dropout')(x)
preds = Dense(num_labels, activation='softmax', name = 'output_dnn')(x)

model = Model(sequence_input, preds)
model.compile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])

不幸的是，网络陷入了“随机性”：

Train on 15197 samples, validate on 3649 samples
Epoch 1/30
15197/15197 [==============================] - 60s 4ms/step - loss: 3.1354 - acc: 0.0505 - val_loss: 2.9943 - val_acc: 0.0496
....
Epoch 24/30
15197/15197 [==============================] - 60s 4ms/step - loss: 2.9905 - acc: 0.0538 - val_loss: 2.9907 - val_acc: 0.0496

我也尝试不使用NonNeg() 约束，结果相同。

【问题讨论】：

【参考方案1】：

嗯，您正在消除与填充步骤相关的权重梯度的计算。

如果您有太多填充步骤，那么关于填充值的嵌入权重将参与大量计算，并且会与其他权重显着竞争。但是训练这些权重是浪费计算，换句话说肯定会干扰。

还要考虑一下，例如，一些填充权重的值可能介于有意义单词的值之间。因此，增加权重可能会使它与另一个词相似，而实际上并非如此。而且也在减少……

这些额外的计算、对损失和梯度计算的额外贡献等将产生更多的计算需求和更多的障碍。这就像在数据中间有很多垃圾。

还要注意，这些零点直接进入密集层，这也将消除许多密集权重的梯度。这可能会过度拟合较长的序列，尽管与较短的序列相比它们很少。

出于好奇，如果你这样做会发生什么？

from keras.initializers import RandomUniform
from keras.constraints import NonNeg

init = RandomUniform(minval=0.0001, maxval=0.05, seed=None)
constr = NonNeg()


......
embedding_layer = Embedding(len(word_index) + 1, 
                            EMBEDDING_DIM, 
                            input_length=MAX_SEQUENCE_LENGTH, 
                            name = 'embedding_dnn', 
                            embeddings_initializer=init,
                            embeddings_constraint=constr)
..........

【讨论】：

您似乎同意我的观点，即这是一个有用的选项。我想我的下一个问题（也许是一个修辞问题：））是，为什么 Keras 不提供开箱即用的功能？我不知道哈哈哈......但我认为掩蔽应该做类似的伎俩。但是 keras 中的遮罩是我从未真正理解的晦涩难懂的东西。我根本不知道它做了什么，而且输出很奇怪。 @DavidMakovoz ，如果您尝试我在答案中添加的建议以及您的零方法怎么办？我想它会变得更好（但也许不是：p）我也怀疑Flatten 不支持屏蔽，这最终使屏蔽无用。正如我上面提到的，mask_zero 不将嵌入设置为 0。参见例如***.com/questions/47485216/… 很好地解释了它的作用。不过，我同意这个名称具有误导性。

以上是关于Keras嵌入层：将零填充值保持为零的主要内容，如果未能解决你的问题，请参考以下文章

将零填充到 Python 列表

如何将零填充的多维数组传递给 C++ 中的函数？

keras 中的因果填充

如何在 keras conv 层中进行零填充？

如何在 Conv2D 层中使用 keras 指定填充？

填充表格视图时，我的应用程序崩溃，因为它声称一个属性为零，但在我设置它之前打印该属性说它有一个值