如何在 Tensorflow 中为未知单词添加新的嵌入（训练和预设测试）

Posted 2023-02-23

技术标签:

【中文标题】如何在 Tensorflow 中为未知单词添加新的嵌入（训练和预设测试）【英文标题】：How to add new embeddings for unknown words in Tensorflow (training & pre-set for testing) 【发布时间】：2017-12-20 03:42:51 【问题描述】：

我很好奇，每当遇到预训练词汇表中未知的单词时，如何添加一个正常随机化的 300 维向量（元素类型 = tf.float32）。我正在使用预训练的 GloVe 词嵌入，但在某些情况下，我意识到我遇到了未知词，我想为这个新发现的未知词创建一个正常随机化的词向量。

问题在于，在我当前的设置中，我使用tf.contrib.lookup.index_table_from_tensor 根据已知词汇将单词转换为整数。这个函数可以创建新的标记并对一些预定义的词汇表外的单词进行哈希处理，但是我的embed 将不包含这个新的未知哈希值的嵌入。我不确定是否可以简单地将随机嵌入附加到 embed 列表的末尾。

我也想以一种有效的方式来做这件事，所以预先构建的 tensorflow 函数或涉及 tensorflow 函数的方法可能是最有效的。我定义了预先知道的特殊标记，例如句尾标记和默认未知作为空字符串（“在索引 0 处），但这在学习各种不同的未知单词的能力方面受到限制。我目前使用 tf.nn.embedding_lookup()作为最后的嵌入步骤。

我希望能够为训练数据中的每个未知单词添加新的随机 300d 向量，并且我还希望为训练中可能遇到的任何在训练中未见的未知标记添加预制的随机词向量测试。最有效的方法是什么？

def embed_tensor(string_tensor, trainable=True):
    """    
    Convert List of strings into list of indicies then into 300d vectors
    """
    # ordered lists of vocab and corresponding (by index) 300d vector
    vocab, embed = load_pretrained_glove()

    # Set up tensorflow look up from string word to unique integer
    vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
        mapping=tf.constant(vocab),
        default_value = 0)
    string_tensor = vocab_lookup.lookup(string_tensor)

    # define the word embedding 
    embedding_init = tf.Variable(tf.constant(np.asarray(embed),
                                 dtype=tf.float32),
                                 trainable=trainable,
                                 name="embed_init")

    # return the word embedded version of the sentence (300d vectors/word)
    return tf.nn.embedding_lookup(embedding_init, string_tensor)

【问题讨论】：

【参考方案1】：

下面的代码示例调整了您的 embed_tensor 函数，以便按如下方式嵌入单词：

对于具有预训练嵌入的单词，嵌入使用预训练嵌入进行初始化。如果trainable 是False，则嵌入可以在训练期间保持固定。对于训练数据中没有预训练嵌入的单词，嵌入是随机初始化的。如果trainable 是False，则嵌入可以在训练期间保持固定。对于训练数据中未出现且没有预训练嵌入的测试数据中的单词，使用单个随机初始化的嵌入向量。无法训练此向量。

import tensorflow as tf
import numpy as np

EMB_DIM = 300
def load_pretrained_glove():
    return ["a", "cat", "sat", "on", "the", "mat"], np.random.rand(6, EMB_DIM)

def get_train_vocab():
    return ["a", "dog", "sat", "on", "the", "mat"]

def embed_tensor(string_tensor, trainable=True):
  """
  Convert List of strings into list of indices then into 300d vectors
  """
  # ordered lists of vocab and corresponding (by index) 300d vector
  pretrained_vocab, pretrained_embs = load_pretrained_glove()
  train_vocab = get_train_vocab()
  only_in_train = list(set(train_vocab) - set(pretrained_vocab))
  vocab = pretrained_vocab + only_in_train

  # Set up tensorflow look up from string word to unique integer
  vocab_lookup = tf.contrib.lookup.index_table_from_tensor(
    mapping=tf.constant(vocab),
    default_value=len(vocab))
  string_tensor = vocab_lookup.lookup(string_tensor)

  # define the word embedding
  pretrained_embs = tf.get_variable(
      name="embs_pretrained",
      initializer=tf.constant_initializer(np.asarray(pretrained_embs), dtype=tf.float32),
      shape=pretrained_embs.shape,
      trainable=trainable)
  train_embeddings = tf.get_variable(
      name="embs_only_in_train",
      shape=[len(only_in_train), EMB_DIM],
      initializer=tf.random_uniform_initializer(-0.04, 0.04),
      trainable=trainable)
  unk_embedding = tf.get_variable(
      name="unk_embedding",
      shape=[1, EMB_DIM],
      initializer=tf.random_uniform_initializer(-0.04, 0.04),
      trainable=False)

  embeddings = tf.concat([pretrained_embs, train_embeddings, unk_embedding], axis=0)

  return tf.nn.embedding_lookup(embeddings, string_tensor)

仅供参考，要对训练数据中未出现且没有预训练嵌入的单词进行合理的非随机表示，您可以考虑将训练数据中频率较低的单词映射到 unk 令牌（不在您的词汇表中）并使 unk_embedding 可训练。通过这种方式，您可以学习训练数据中看不到的单词的原型。

【讨论】：

我尝试按照上述方法。但是，尽管将预定义嵌入的可训练参数固定为假，但它们在训练期间发生了变化。 ***.com/q/49488946/2061991【参考方案2】：

我从未尝试过，但我可以尝试提供一种使用与您的代码相同的机制的可能方式，但我稍后会考虑更多。

index_table_from_tensor 方法接受一个 num_oov_buckets 参数，该参数将所有 oov 单词随机放入预定义数量的存储桶中。

如果您将此参数设置为某个“足够大”的值，您将看到您的数据分布在这些存储桶中（每个存储桶都有一个 ID > 词汇表中最后一个单词的 ID）。

所以，

如果（在每次查找时）您将（即assign）您的embedding_init 变量的最后一行（对应于存储桶的行）设置为随机值如果您将num_oov_buckets设置得足够大，那么冲突将被最小化

您可以通过一种非常有效的方式获得您所要求的行为（近似）。

随机行为可以通过类似于哈希表的理论来证明：如果桶的数量足够大，则字符串的哈希方法将以高概率将每个 oov 词分配给不同的桶（即最小化冲突到相同的桶）。由于您为每个不同的存储桶分配了不同的随机数，因此您可以获得每个 oov 词的（几乎）不同的映射。

【讨论】：

【参考方案3】：

我的一个想法是通过为每个新词添加一个新维度（基本上保持它们的单热性质）来将新词捕获到预训练嵌入中。

假设新词的数量很小但它们很重要，例如，您可以将嵌入结果的维度从 300 增加到 300 + # 个新词，其中每个新词的维度中除 1 外全为零.

【讨论】：

以上是关于如何在 Tensorflow 中为未知单词添加新的嵌入（训练和预设测试）的主要内容，如果未能解决你的问题，请参考以下文章

tensorflow softmax如何添加未知类？

如何在opencv中为图像添加边框，边框颜色必须与图像颜色相同

如何在 html 表中为未知数量的输入命名？

如何通过代码拼写检查将所有未知单词添加到字典中，或者当语言不是英语时忽略它们？

如何在Bazel中为Android项目添加Maven依赖项（例如Volley，Gson）？

如何在 iOS 中为通用应用程序添加新的两个 XIB 文件？