处理doc2vec培训中的其他信息
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了处理doc2vec培训中的其他信息相关的知识,希望对你有一定的参考价值。
我想对由2位信息组成的项目培训doc2vec:a)文本(在法律领域)b)关键字和/或从文本中提取的其他法律文本的引用我希望我的模型能够识别类似的文本根据,基本上,2个标准:a)文本相似性和b)关键字/参考的存在
对于这样的案例,有没有最佳做法?到目前为止我的想法: - 将文本和关键字/参考文献连接成一个字符串并在其上训练模型 - 训练两个独立的模型(将生成两个向量:用于文本和关键字
答案
我假设'doc2vec'你的意思是gensim
实现了'Paragraph Vector'算法,在类Doc2Vec
中。
您的两种方法都可行,可能值得测试。在Doc2Vec
类中没有任何设施用于提供明显的“其他”数据,但是你可以使这些数据看起来像额外的字标记或额外的tags
,因此具有其他值的交叉关联影响,并嵌入其中,结果向量空间。
具体来说,如果您希望将“关键字和/或引用”与整个文本一起建模,而不仅仅是它们可能发生在旁边的正常单词(如果它们被附加到文本中),那么应该特别尝试以下一个或两个选项:
- 使用PV-DBOW模式(
dm=0
),它不使用单词到附近的单词影响(在上下文中window
) - 将关键字或引用放置为额外的
tags
,以及唯一的文档ID标记(这是命名doc-vectors的经典方法)
(如果尝试两个单独的模型,您可能会使基于自然文本的模型仍然使用受window
影响的PV-DM模式,而关键字/引用的基本无序性质将使用PV-DBOW模式。)
以上是关于处理doc2vec培训中的其他信息的主要内容,如果未能解决你的问题,请参考以下文章
tensorflow在文本处理中的使用——Doc2Vec情感分析
doc2vec使用说明gensim工具包 LabeledSentence