使用 doc2vec 表示的 scikit-learn 分类
Posted
技术标签:
【中文标题】使用 doc2vec 表示的 scikit-learn 分类【英文标题】:scikit-learn classification using doc2vec representation 【发布时间】:2017-04-11 12:49:07 【问题描述】:我想使用 doc2vec 表示和 scikit-learn 模型对文本文档进行分类。
我的问题是我不知道如何开始。有人可以解释将 doc2vec 与 scikit-learn 一起使用的一般步骤吗?
【问题讨论】:
【参考方案1】:有一个很棒的教程 here 用于使用 scikit-learn + doc2vec 进行二进制分类。简而言之:
使用gensim
训练/加载您的 doc2vec 模型。
输入文本将被转换为浮点数的固定维度向量(与嵌入的维度相同)。这些是实际的输入特征。
现在可以随意使用scikit-learn
中的任何分类器。
【讨论】:
以上是关于使用 doc2vec 表示的 scikit-learn 分类的主要内容,如果未能解决你的问题,请参考以下文章
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
Doc2vec:gensim doc2vec模型中只有10个docvecs?