小批量的 Scikit-learn tfidf 矢量化器?

Posted

技术标签:

【中文标题】小批量的 Scikit-learn tfidf 矢量化器?【英文标题】:Scikit-learn tfidf vectorizer in minibatches? 【发布时间】:2019-06-09 11:43:03 【问题描述】:

我一直在尝试对大型语料库执行 tf-idf 启发式算法。

我可以迭代读取文档,并调用

vectorizer.fit()

在每次迭代中?这是只考虑当前迭代,还是记住以前的迭代?

谢谢!

【问题讨论】:

每次调用 fit 时,词汇表都会从头开始初始化,所以这不是一个选项。 那有什么解决办法? 【参考方案1】:

您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现,它更高效,并且不需要像 this post 解释的那样将整个语料库保存在内存中。

【讨论】:

谢谢!这正是我想要的。

以上是关于小批量的 Scikit-learn tfidf 矢量化器?的主要内容,如果未能解决你的问题,请参考以下文章

scikit-learn - HashingVectorizer 上的 Tfidf

将 scikit-learn TfIdf 与 gensim LDA 一起使用

我如何分发小批量 kmeans(scikit-learn)的处理?

scikit-learn SVM 可以有很多样本/小批量吗?

如何使用 scikit-learn 对文本对进行分类?

scikit-learn 的 TfidfVectorizer 在线版