使用 scikit-learn 判断给定文本是不是与先前学习的文本相似

Posted

技术标签:

【中文标题】使用 scikit-learn 判断给定文本是不是与先前学习的文本相似【英文标题】:Using scikit-learn to decide if a given text is similar to previously learnt texts使用 scikit-learn 判断给定文本是否与先前学习的文本相似 【发布时间】:2017-08-20 08:01:23 【问题描述】:

我是滑雪学习的新手。

我想要做的很简单——只需给我的模型提供一堆相似的文本。

然后,我希望能够给它一个新的文本,看看它是否与数据集中现有的文本相似。

这应该怎么做?

非常感谢。

【问题讨论】:

【参考方案1】:

另一个好的方法是贝叶斯分类器,就像用于垃圾邮件检测的分类器一样。查看this 链接以了解更多信息。

【讨论】:

【参考方案2】:

一种好的方法可能是使用余弦相似度。这是一个非常好的入门教程: Machine Learning :: Cosine Similarity for Vector Space Models (Part III)

【讨论】:

以上是关于使用 scikit-learn 判断给定文本是不是与先前学习的文本相似的主要内容,如果未能解决你的问题,请参考以下文章

给定两个 Linux 静态库,如何判断一个是不是依赖于另一个?

java 怎么判断文本内容的编码格式

如何判断 UITextView 文本是不是换行?

python实现给定一个列表判断里面是不是有重复元素

js 如何判断文本内容是不是换行了

给定两个纬度/经度,我如何判断它们是不是在 1 英里范围内?