决策树可视化的三种方法
Posted bfhonor
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了决策树可视化的三种方法相关的知识,希望对你有一定的参考价值。
一、决策树可视化的三种方法
- 可视化需要在模型训练好后,即执行clf.fit(x, y)函数之后:
第一种
with open("iris.dot", 'w') as f:
f = tree.export_graphviz(clf, out_file=f)
- 然后打开命令行,执行:
#注意,这个命令在命令行执行,并且在含dot文件的路径中执行这个命令
dot -Tpdf iris.dot -o iris.pdf
第二种
- 使用pydotplus库:
import pydotplus
from sklearn import tree
dot_data = tree.export_graphviz(clf, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("iris.pdf")
第三种
- 使用IPython的display。需要安装jupyter notebook。
from IPython.display import Image
import pydotplus
## 添加graphviz的环境变量
# import os
# os.environ["PATH"] += os.pathsep + 'D:\\graphviz\\bin'
dot_data = tree.export_graphviz(estimator, out_file=None,
feature_names=["此处填特征值"])
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())
二、决策树可视化示例
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
import pydotplus
from sklearn import tree
# 1.获取数据
data = pd.read_csv("titanic.csv")
data.describe()
# 2. 数据基本处理
# 2.1确定特征值,目标值
x = data[["pclass", "age", "sex"]]
x.head()
y = data[["survived"]]
y.head()
# 2.2缺失值处理
# value代表的是用什么值来进行替换
# inplace代表的是是否对原值进行更改
# 对x数据中的age缺失值进行处理
x["age"].fillna(value=data["age"].mean(), inplace=True)
# 2.3 数据集划分
# test_size测试集的大小
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22, test_size=0.2)
# 3.特征工程
# x.to_dict(orient="records") 需要将数组特征转换成字典数据
x_train = x_train.to_dict(orient="records")
x_test = x_test.to_dict(orient="records")
# 字典特征抽取
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)
# 4. 机器学习(决策树)
estimator = DecisionTreeClassifier(max_depth=5)
estimator.fit(x_train, y_train)
# 5. 模型评估
y_pre = estimator.predict(x_test)
print(y_pre)
ret = estimator.score(x_test, y_test)
# 决策树可视化
dot_data = tree.export_graphviz(estimator, out_file=None)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf("tree.pdf")
以上是关于决策树可视化的三种方法的主要内容,如果未能解决你的问题,请参考以下文章