如何标准化 scikit-learn 中的 TF*IDF 或计数？

Posted 2023-03-12

技术标签:

【中文标题】如何标准化 scikit-learn 中的 TF*IDF 或计数？【英文标题】：How to normalize TF*IDF or counts in scikit-learn? 【发布时间】：2019-11-14 23:24:08 【问题描述】：

我想检查两个具有不同长度的文档的余弦相似度（比如说一个是一个或两个行，而另一个是 100-200 行）。

为此，我需要一种方法来规范化 tfidf 或在 scikit-learn 中计数矢量化器。

【问题讨论】：

需要使用余弦相似度吗？还是愿意接受任何其他尝试？到目前为止你尝试了什么？ @Tiago Duque 我需要余弦相似度 @dmh 余弦相似度使用 CountVecorizer, TfIdf 【参考方案1】：

TfidfVectorizer 具有处理此问题的属性norm（请参阅the docs）。例如，尝试这样的事情：

vectorizer = TfidfVectorizer(analyzer='word', stop_words='english', norm='l2')

这将规范化向量以解决文档长度的差异。

【讨论】：

以上是关于如何标准化 scikit-learn 中的 TF*IDF 或计数？的主要内容，如果未能解决你的问题，请参考以下文章