使用 scikit-learn 判断给定文本是不是与先前学习的文本相似
Posted
技术标签:
【中文标题】使用 scikit-learn 判断给定文本是不是与先前学习的文本相似【英文标题】:Using scikit-learn to decide if a given text is similar to previously learnt texts使用 scikit-learn 判断给定文本是否与先前学习的文本相似 【发布时间】:2017-08-20 08:01:23 【问题描述】:我是滑雪学习的新手。
我想要做的很简单——只需给我的模型提供一堆相似的文本。
然后,我希望能够给它一个新的文本,看看它是否与数据集中现有的文本相似。
这应该怎么做?
非常感谢。
【问题讨论】:
【参考方案1】:另一个好的方法是贝叶斯分类器,就像用于垃圾邮件检测的分类器一样。查看this 链接以了解更多信息。
【讨论】:
【参考方案2】:一种好的方法可能是使用余弦相似度。这是一个非常好的入门教程: Machine Learning :: Cosine Similarity for Vector Space Models (Part III)
【讨论】:
以上是关于使用 scikit-learn 判断给定文本是不是与先前学习的文本相似的主要内容,如果未能解决你的问题,请参考以下文章
将 float64 数据类型与 scikit-learn ML 算法一起使用是不是合适?
scikit-learn决策树回归:检索叶子的所有样本(不是平均值)
给定参考值的二维矩阵,对两个变量进行 Scikit-learn 回归