小批量的 Scikit-learn tfidf 矢量化器？

Posted 2023-03-12

技术标签:

【中文标题】小批量的 Scikit-learn tfidf 矢量化器？【英文标题】：Scikit-learn tfidf vectorizer in minibatches? 【发布时间】：2019-06-09 11:43:03 【问题描述】：

我一直在尝试对大型语料库执行 tf-idf 启发式算法。

我可以迭代读取文档，并调用

vectorizer.fit()

在每次迭代中？这是只考虑当前迭代，还是记住以前的迭代？

谢谢！

【问题讨论】：

每次调用 fit 时，词汇表都会从头开始初始化，所以这不是一个选项。那有什么解决办法？ 【参考方案1】：

您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现，它更高效，并且不需要像 this post 解释的那样将整个语料库保存在内存中。

【讨论】：

谢谢！这正是我想要的。

以上是关于小批量的 Scikit-learn tfidf 矢量化器？的主要内容，如果未能解决你的问题，请参考以下文章