解释文本分类的随机森林模型

Posted

技术标签:

【中文标题】解释文本分类的随机森林模型【英文标题】:interpert random forest model for text classificaiton 【发布时间】:2016-04-02 18:16:57 【问题描述】:

我有一个文本数据集,我在其中手动将每条记录分类为两个可能的类别之一。我在语料库上创建了一个 TFIDF,没有英语停用词,训练/测试了随机森林分类器,评估了模型,并将模型应用于更大的文本语料库。到目前为止一切都很好,但是如何找到关于我的模型的更多信息,即如何找出哪些词对模型“重要”?

【问题讨论】:

【参考方案1】:

经过训练的 RF 应该有一个属性feature_importances_。我认为您必须使用oob_score=True(在构造函数中)来训练模型。特征重要性将告诉您哪些特征(数据矩阵列)有影响。要获取单词,请返回 tfidf 矢量化器并获取其vocabulary_ 属性(注意尾随下划线),这是从单词到列索引的字典。

有关词汇表属性的解释,请参见这篇文章:sklearn : TFIDF Transformer : How to get tf-idf values of given words in document

【讨论】:

有道理。非常感谢!

以上是关于解释文本分类的随机森林模型的主要内容,如果未能解决你的问题,请参考以下文章

决策树、随机森林

大数据分析案例-基于随机森林算法构建新闻文本分类模型

kaggle项目:基于随机森林模型的心脏病患者预测分类!

分类算法 - 随机森林

随机森林原理

随机森林可解释性