使用 doc2vec 表示的 scikit-learn 分类

Posted

技术标签:

【中文标题】使用 doc2vec 表示的 scikit-learn 分类【英文标题】:scikit-learn classification using doc2vec representation 【发布时间】:2017-04-11 12:49:07 【问题描述】:

我想使用 doc2vec 表示和 scikit-learn 模型对文本文档进行分类。

我的问题是我不知道如何开始。有人可以解释将 doc2vec 与 scikit-learn 一起使用的一般步骤吗?

【问题讨论】:

【参考方案1】:

有一个很棒的教程 here 用于使用 scikit-learn + doc2vec 进行二进制分类。简而言之:

使用 gensim 训练/加载您的 doc2vec 模型。 输入文本将被转换为浮点数的固定维度向量(与嵌入的维度相同)。这些是实际的输入特征。 现在可以随意使用scikit-learn 中的任何分类器。

【讨论】:

以上是关于使用 doc2vec 表示的 scikit-learn 分类的主要内容,如果未能解决你的问题,请参考以下文章

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型

word2vec 和 doc2vec 词向量表示

Doc2vec:gensim doc2vec模型中只有10个docvecs?

如何将 Gensim doc2vec 与预训练的词向量一起使用?

NLP之Word2Vec模型和Doc2Vec模型