使用 scikit-learn 判断给定文本是不是与先前学习的文本相似

Posted

技术标签:

【中文标题】使用 scikit-learn 判断给定文本是不是与先前学习的文本相似【英文标题】:Using scikit-learn to decide if a given text is similar to previously learnt texts使用 scikit-learn 判断给定文本是否与先前学习的文本相似 【发布时间】:2017-08-20 08:01:23 【问题描述】:

我是滑雪学习的新手。

我想要做的很简单——只需给我的模型提供一堆相似的文本。

然后,我希望能够给它一个新的文本,看看它是否与数据集中现有的文本相似。

这应该怎么做?

非常感谢。

【问题讨论】:

【参考方案1】:

另一个好的方法是贝叶斯分类器,就像用于垃圾邮件检测的分类器一样。查看this 链接以了解更多信息。

【讨论】:

【参考方案2】:

一种好的方法可能是使用余弦相似度。这是一个非常好的入门教程: Machine Learning :: Cosine Similarity for Vector Space Models (Part III)

【讨论】:

以上是关于使用 scikit-learn 判断给定文本是不是与先前学习的文本相似的主要内容,如果未能解决你的问题,请参考以下文章

将 float64 数据类型与 scikit-learn ML 算法一起使用是不是合适?

scikit-learn决策树回归:检索叶子的所有样本(不是平均值)

给定参考值的二维矩阵,对两个变量进行 Scikit-learn 回归

使用 scikit-learn 进行多标签文本分类,使用哪些分类器?

如何使用 scikit-learn 为机器学习准备文本数据

使用 scikit-learn 进行文本特征提取