小批量的 Scikit-learn tfidf 矢量化器?
Posted
技术标签:
【中文标题】小批量的 Scikit-learn tfidf 矢量化器?【英文标题】:Scikit-learn tfidf vectorizer in minibatches? 【发布时间】:2019-06-09 11:43:03 【问题描述】:我一直在尝试对大型语料库执行 tf-idf 启发式算法。
我可以迭代读取文档,并调用
vectorizer.fit()
在每次迭代中?这是只考虑当前迭代,还是记住以前的迭代?
谢谢!
【问题讨论】:
每次调用 fit 时,词汇表都会从头开始初始化,所以这不是一个选项。 那有什么解决办法? 【参考方案1】:您的问题的解决方案将取决于您的特定应用程序。您可以考虑 gensim 的 tfidf 实现,它更高效,并且不需要像 this post 解释的那样将整个语料库保存在内存中。
【讨论】:
谢谢!这正是我想要的。以上是关于小批量的 Scikit-learn tfidf 矢量化器?的主要内容,如果未能解决你的问题,请参考以下文章
scikit-learn - HashingVectorizer 上的 Tfidf
将 scikit-learn TfIdf 与 gensim LDA 一起使用
我如何分发小批量 kmeans(scikit-learn)的处理?