如何用单词解释 doc2vec 分类器?

Posted

技术标签:

【中文标题】如何用单词解释 doc2vec 分类器?【英文标题】:How to interpret doc2vec classifier in terms of words? 【发布时间】:2021-08-07 08:19:47 【问题描述】:

我已经在gensim 中针对属于几类的文档训练了一个 doc2vec (PV-DM) 模型。我正在一个非语言环境中工作,由于实际原因,文档数量和唯一单词的数量都很小(~100 个文档,~100 个单词)。每个文档可能有 10k 个令牌。我的目标是表明 doc2vec 嵌入比简单的统计数据更能预测文档类别,并解释每个文档中的哪些 单词(或者可能是单词序列等)指示类别。

与其他统计数据相比,我在嵌入训练的(交叉验证的)分类器上具有良好的性能,但我仍然不确定如何将分类器的结果与给定文档的任何特征联系起来。有没有标准的方法来做到这一点?我的第一个倾向是简单地将共同学习的词嵌入通过文档分类器传递,以便查看哪些词位于嵌入空间的哪些分类器分区区域。单词嵌入上的文档类输出在交叉验证拆分中非常一致,这是令人鼓舞的,尽管我不知道如何将这些有效标签转换为“文档 X 因为这样那样的属性而得到标签 Y文档中的单词 A、B 和 C"。

另一个想法是查看词向量和文档向量之间的相似性。相似词向量的排序在随机种子和超参数中非常稳定,但这种标记的输出与前一种方法的输出完全不对应。

提前感谢您的帮助。

编辑:这里有一些澄清点。 “文档”中的标记是有序的,它们是从离散值过程中测量的,我怀疑其状态从序列中的上下文中获取它们的“含义”,就像单词一样。只有少数类,通常在 3 到 5 个之间。文档被赋予唯一的标签,并且这些类不用于学习嵌入。嵌入有相当多的维度,总是

【问题讨论】:

【参考方案1】:

Doc2Vec 的许多已发表作品相比,这是一个非常小的数据集(100 个文档)和词汇(100 个单词),后者通常使用数万或数百万个不同的文档。

每个文档包含数千个单词,而您使用的 PV-DM 模式混合了文档到单词和单词到单词的上下文进行训练,这有点帮助。我仍然希望您可能需要使用小于默认的维度(vector_size

你没有提到你有多少类,也没有提到你正在使用什么分类器算法,也没有提到已知的类是否被混合到(通常是无监督的)Doc2Vec 训练模式中。

如果您只使用已知类作为 doc-tags,并且您的“少数”类例如只有 3 个,那么在某种程度上您只有 3 个唯一的“文档”,您正在使用这些“文档”进行培训在片段中。仅使用“少数”独特的 doctags 可能会过早地隐藏对下游分类器可能有用的数据的多样性。

另一方面,如果你给每个文档一个唯一的 ID - 原始的“段落向量”论文方法,然后你将它们提供给下游分类器,这可以单独使用,但也可能受益除了每个文档的 ID 之外,还可以将已知类添加为额外的标签。 (也许如果你有很多类,这些可能可以作为唯一的 doc-tags。比较每种方法是值得的。)

除了观察到当您使用同时训练文档向量和词向量的模式时,文档向量和词向量具有与单独的词向量往往具有相同的有用相似性/邻域/方向。

您可以简单地尝试创建合成文档,或通过有针对性地删除/添加候选词来篡改真实文档的词,或者将文档与强/正确的分类器预测混合在一起,以查看 (a) 他们的doc-vector,以及最近的其他 doc-vectors 或 class-vectors;或 (b) 任何下游分类器的预测/相对置信度。

(一段时间以来,Doc2Vec 的愿望清单功能一直是从 doc-vector 合成伪文档。有关详细信息,请参阅 this issue,包括指向一个部分实现的链接。而仅列出此类单词在自然语言中是无意义的,它可能会给 doc-vectors 带来一定的“生动性”。)

如果您不使用真正的自然语言,请记住一些有用的事情:

如果您的“文本”确实是无序的令牌袋,那么window 可能并不是一个有趣的参数。将其设置为一个非常大的数字可能是有意义的(基本上将所有单词放在彼此的窗口中),但考虑到您的大型文档,可能不实用/不合适。或者,尝试使用 PV-DBOW - 甚至可能在 tagswords 中混合已知类和单词标记。 默认的 ns_exponent=0.75 继承自 word2vec 和自然语言语料库,并且至少有一篇研究论文(链接自类文档)表明,对于其他应用程序,尤其是推荐系统,非常不同的值可能会有所帮助。

【讨论】:

这很有帮助。针对您的评论,我添加了一些细节。我一定会查看您提供的链接。一个问题:我很乐意生成新文档或篡改旧文档,但是我的嵌入是一次性学习的,所以我不需要重新训练包括新合成文档在内的完整语料库吗?或者您是在谈论完全再训练(嵌入和分类器)之间的比较? Doc2Vec 类有一个 infer_vector() 方法,可以从经过训练的冻结模型计算新文本的 doc-vector。因此,您无需重新训练模型来测试变体文档(包括单个单词的退化文档等)。但请注意:模型使用的固有随机性数量意味着即使是与训练文档完全相同的文本,提供给infer_vector(),也不会返回一个*相同的*向量——只是一个“非常接近”的向量。 (如果在重新推断时有很多偏差,这可能表明模型调整不佳/欠拟合/过拟合。) (另请参阅 Gensim 常见问题解答的 Q11 和 Q12 关于重新训练或重新推理之间的预期“抖动”:github.com/RaRe-Technologies/gensim/wiki/…)。 关于您的更新:Doc2Vec 步骤中的过度拟合本身就是一个问题。作为一个极端的例子,如果你的vector_size 太大,模型会倾向于记忆而不是概括,我会加速分类器的性能受到影响。 (并且,根据上面提到的重新推理过程,当重新推断同一个文档时,会有更多的“抖动”——因为 许多 替代文档向量可能都同样擅长推理预测,不要将特定的文档带到狭窄的社区。)如前所述,为文档添加已知类作为辅助tags 可能值得尝试。 该方法的前提(实验性,从不集成,not-from-any-Doc2Vec-research-paper)无论何种模型模式,都只输入一个向量。而且,输出不是任何有意义的人类可读的“摘要”,只是一些与模型相关的单词,对于某些目的可能很有趣。因此,确实,在没有其他词嵌入/上下文词作为输入的情况下,它们无法对输出做出贡献,并且这种即兴技术与训练前向传播不同。如果你能提供一个 doc-vector 和多个 word-vector 的平均值,它的行为会更像 PV-DM 模式。

以上是关于如何用单词解释 doc2vec 分类器?的主要内容,如果未能解决你的问题,请参考以下文章

如何用OpenCV训练自己的分类器

如何用Pytorch实现一个分类器?

掌握如何用Pytorch实现一个分类器

如何用数组训练分类器?

使用机器学习的情感分析分类器

如何用sci-kit learn识别误分类文本文件的ID/名称/标题