相似性度量 scikit-learn 文档分类

Posted

技术标签:

【中文标题】相似性度量 scikit-learn 文档分类【英文标题】:similarity measure scikit-learn document classification 【发布时间】:2016-08-09 20:00:46 【问题描述】:

我正在使用 scikit-learn 进行文档分类方面的工作。为此,我在一个 tf-idf 矩阵中表示我的文档,并将这些信息提供给一个随机森林分类器,效果非常好。我只是想知道分类器(余弦、欧几里得等)使用哪种相似性度量以及如何更改它。在文档中没有找到任何参数或信息。

提前致谢!

【问题讨论】:

【参考方案1】:

与大多数监督学习算法一样,随机森林分类器不使用相似度度量,它们直接处理提供给它们的特征。因此,决策树是根据您的 tf-idf 向量中的术语构建的。

如果您想使用相似度,那么您必须为您的文档计算一个相似度矩阵并将其用作您的特征。

【讨论】:

以上是关于相似性度量 scikit-learn 文档分类的主要内容,如果未能解决你的问题,请参考以下文章

向量的相似性度量

机器学习中的相似性度量

机器学习中的相似性度量(Similarity Measurement)

机器学习中的相似性度量

机器学习中的相似性度量

机器学习中的相似性度量