如何为 sklearn CountVectorizer 设置自定义停用词？

Posted 2023-02-23

技术标签:

【中文标题】如何为 sklearn CountVectorizer 设置自定义停用词？【英文标题】：How to set custom stop words for sklearn CountVectorizer? 【发布时间】：2017-02-28 16:27:15 【问题描述】：

我正在尝试在非英语文本数据集上运行 LDA（潜在狄利克雷分配）。

在 sklearn 的教程中，您可以在此部分计算要输入 LDA 的单词的词频：

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
                            max_features=n_features,
                            stop_words='english')

它具有内置的停用词功能，我认为该功能仅适用于英语。我怎么能使用我自己的停用词列表呢？

【问题讨论】：

哦，天哪，是的，它成功了！下次应该更好地阅读文档。 【参考方案1】：

您可以将您自己的话的frozenset 分配给stop_words argument，例如：

stop_words = frozenset(["word1", "word2","word3"])

【讨论】：

以上是关于如何为 sklearn CountVectorizer 设置自定义停用词？的主要内容，如果未能解决你的问题，请参考以下文章