解释文本分类的随机森林模型
Posted
技术标签:
【中文标题】解释文本分类的随机森林模型【英文标题】:interpert random forest model for text classificaiton 【发布时间】:2016-04-02 18:16:57 【问题描述】:我有一个文本数据集,我在其中手动将每条记录分类为两个可能的类别之一。我在语料库上创建了一个 TFIDF,没有英语停用词,训练/测试了随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到关于我的模型的更多信息,即如何找出哪些词对模型“重要”?
【问题讨论】:
【参考方案1】:经过训练的 RF 应该有一个属性feature_importances_
。我认为您必须使用oob_score=True
(在构造函数中)来训练模型。特征重要性将告诉您哪些特征(数据矩阵列)有影响。要获取单词,请返回 tfidf 矢量化器并获取其vocabulary_
属性(注意尾随下划线),这是从单词到列索引的字典。
有关词汇表属性的解释,请参见这篇文章:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document
【讨论】:
有道理。非常感谢!以上是关于解释文本分类的随机森林模型的主要内容,如果未能解决你的问题,请参考以下文章