如何为 sklearn CountVectorizer 设置自定义停用词?
Posted
技术标签:
【中文标题】如何为 sklearn CountVectorizer 设置自定义停用词?【英文标题】:How to set custom stop words for sklearn CountVectorizer? 【发布时间】:2017-02-28 16:27:15 【问题描述】:我正在尝试在非英语文本数据集上运行 LDA(潜在狄利克雷分配)。
在 sklearn 的教程中,您可以在此部分计算要输入 LDA 的单词的词频:
tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2,
max_features=n_features,
stop_words='english')
它具有内置的停用词功能,我认为该功能仅适用于英语。我怎么能使用我自己的停用词列表呢?
【问题讨论】:
哦,天哪,是的,它成功了!下次应该更好地阅读文档。 【参考方案1】:您可以将您自己的话的frozenset
分配给stop_words
argument,例如:
stop_words = frozenset(["word1", "word2","word3"])
【讨论】:
以上是关于如何为 sklearn CountVectorizer 设置自定义停用词?的主要内容,如果未能解决你的问题,请参考以下文章
如何为 sklearn CountVectorizer 设置自定义停用词?
如何为 sklearn 聚类算法准备 pandas 字符串数据表?
如何为多标签分类器/一对休息分类器腌制 sklearn 管道?
Python sklearn 逻辑回归 K-hold 交叉验证:如何为 coef_ 创建一个框架
如何为 sklearn 的 CountVectorizer 编写自定义标记器以将所有 XML 标记以及打开和关闭标记之间的所有文本视为标记