试图从 scikit-learn 集成中打印出森林的决策树

Posted

技术标签:

【中文标题】试图从 scikit-learn 集成中打印出森林的决策树【英文标题】:Trying to print out the decision tree for a forest from scikit-learn ensemble 【发布时间】:2014-01-17 11:43:46 【问题描述】:

我正在尝试从 scikit-learn 集成中打印出森林的决策树:例如,对于 DecisionTreeClassifier,我会使用:

from sklearn import tree  
clf = tree.DecisionTreeClassifier( criterion ='entropy', max_depth = 3,    
min_samples_leaf = 
clf = clf.fit( X_train, y_train) #Input this to analyze the training set.

import pydot, StringIO
dot_data = StringIO.StringIO() 
tree.export_graphviz( clf, out_file = dot_data,    
feature_names =[' age', 'sex', 'first_class', 'second_class', 'third_class'])
graph = pydot.graph_from_dot_data( dot_data.getvalue())
graph.write_png('visualtree.png') 
from IPython.core.display import Image
Image( filename =visualtree.png')

我为随机森林回归器尝试了类似的方法(见下文并出现错误)

# Fit regression model
from sklearn.ensemble import RandomForestRegressor
rfr_1 = RandomForestRegressor(n_estimators=10, max_depth=5)
rfr_1.fit(X, y)

from sklearn.ensemble import*
import pydot, StringIO
dot_data = StringIO.StringIO() 
ensemble.export_graphviz( rf1, out_file = dot_data,    
feature_names =[' Temperature', 'Translator Bacteria'])
graph = pydot.graph_from_dot_data( dot_data.getvalue())
graph.write_png('fish.png') 
from IPython.core.display import Image

图片(文件名='fish.png')

文件“randomforestregressor.py”,第 45 行,在 ensemble.export_graphviz(rf1, out_file = dot_data, NameError: name 'ensemble' 未定义

我将如何做到这一点?谢谢!

【问题讨论】:

【参考方案1】:

错误信息非常明确:

File "randomforestregressor.py", line 45, in ensemble.export_graphviz( rf1, out_file = dot_data, NameError: name 'ensemble' is not defined

您在脚本第 45 行访问了一个名为 ensemble 的变量,但您从未定义过这样的变量。在您的情况下,您可能希望该变量指向 sklearn.ensemble 包:

from sklearn import ensemble

但是,如果您这样做,您可能会得到一个AttributeError,因为sklearn.ensemble 包没有export_graphviz 函数。

相反,您可能想要做的是通过迭代rfr_1.estimators_ 列表的元素并在每棵树上调用sklearn.tree 包的export_graphviz 方法,为森林中的每棵树生成一个图像。

但在实践中,展示森林中的树木通常是无用的。从业者通常会用数百或数千棵树构建随机森林,以获得良好的预测准确性。在这种情况下,目视检查那么多树是不切实际的。

【讨论】:

奥格里塞尔说得好!换一种方式,假设我想尝试在离散的时间点说明一个解决方案,例如 2014 年 1 月 5 座中型汽车的价格,我将如何使用随机森林显示这样的答案?谢谢,克里斯 我不知道您在说什么,但这可能与原始问题或此答案无关,因此可能应该在单独的问题中而不是在此答案的 cmets 中提出。跨度> 请删除这个问题

以上是关于试图从 scikit-learn 集成中打印出森林的决策树的主要内容,如果未能解决你的问题,请参考以下文章

机器学习(十三) 集成学习和随机森林(下)

在 scikit-learn 中平均多个随机森林模型

Scikit-learn 随机森林占用太多内存

scikit-learn随机森林调参小结

转载:scikit-learn随机森林调参小结

scikit-learn 随机森林永远不会完成训练,冻结