在决策树中查找到决策边界的距离

Posted

技术标签:

【中文标题】在决策树中查找到决策边界的距离【英文标题】:Find Distance to Decision Boundary in Decision Trees 【发布时间】:2020-07-12 14:25:37 【问题描述】:

我想在scikit-learn 中找到样本到经过训练的决策树分类器的决策边界的距离。特征都是数字的,特征空间可以是任意大小。

到目前为止,我有一个基于here 的示例 2D 案例的可视化:

import numpy as np
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_moons

# Generate some example data
X, y = make_moons(noise=0.3, random_state=0)

# Train the classifier
clf = DecisionTreeClassifier(max_depth=2)

clf.fit(X, y)

# Plot
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')
plt.xlabel('a'); plt.ylabel('b');

我了解对于 SVM 等其他一些分类器,这个距离可以通过数学计算得到 [1, 2, 3]。训练决策树后学习的规则定义了边界,也可能有助于算法计算距离 [4, 5, 6]:

# Plot the trained tree
from sklearn import tree
import graphviz 
dot_data = tree.export_graphviz(clf, feature_names=['a', 'b'],  class_names=['1', '2'], filled=True)  
graph = graphviz.Source(dot_data)  

【问题讨论】:

【参考方案1】:

由于样本周围可能有多个决策边界,因此我假设此处的距离是指到最近决策边界的距离。

解决方案是递归树遍历算法。请注意,决策树不允许样本位于边界上,例如SVM,特征空间中的每个样本都必须属于其中一个类。所以在这里我们将继续以小步骤修改样本的特征,每当这导致一个区域具有不同的标签(与训练分类器最初分配给样本的标签不同),我们假设我们已经达到了决策边界。

详细而言,与任何递归算法一样,我们需要考虑两种主要情况:

    基本情况,即我们位于叶节点。我们只是检查当前样本是否有不同的标签:如果是则返回它,否则返回None。 非叶节点。有两个分支,我们将样品发送到两个分支。我们不会修改样本以将其发送到自然需要的分支。但在将其发送到另一个分支之前,我们会查看节点的 (特征, 阈值) 对,并修改样本的给定特征,使其刚好将其推到阈值的另一侧。

完整的python代码:

def f(node,x,orig_label):
    global dt,tree
    if tree.children_left[node]==tree.children_right[node]: #Meaning node is a leaf
        return [x] if dt.predict([x])[0]!=orig_label else [None]

    if x[tree.feature[node]]<=tree.threshold[node]:
        orig = f(tree.children_left[node],x,orig_label)
        xc = x.copy()
        xc[tree.feature[node]] = tree.threshold[node] + .01
        modif = f(tree.children_right[node],xc,orig_label)
    else:
        orig = f(tree.children_right[node],x,orig_label)
        xc = x.copy()
        xc[tree.feature[node]] = tree.threshold[node] 
        modif = f(tree.children_left[node],xc,orig_label)
    return [s for s in orig+modif if s is not None]

这将返回给我们一个样本列表,这些样本会导致带有不同标签的叶子。我们现在需要做的就是取最近的一个:

dt =  DecisionTreeClassifier(max_depth=2).fit(X,y)
tree = dt.tree_
res = f(0,x,dt.predict([x])[0]) # 0 is index of root node
ans = np.min([np.linalg.norm(x-n) for n in res]) 

为了说明:

蓝色是原始样本,黄色是最近的样本“在”决策边界。

【讨论】:

谢谢!我正在尝试在上面的示例中运行它。问题:dt 是训练好的分类器,对吧?即,clf 在我上面的代码中。而且,tree 呢?我收到了AttributeError: module 'sklearn.tree' has no attribute 'children_left',这是有道理的,但不知道如何解决。 我的错,在答案看起来太大后匆忙删除了部分答案:) 是的 dt 是训练有素的分类器,tree=dt.tree_dt 内部使用的树 谢谢。我看不到 label 在脚本中的初始化位置;它会引发错误。 对这种类型的编辑感到抱歉,但由于某些原因我无法测试。现在可以了吗? 是的,它现在运行。我认为距离计算不正确。我用这个ans = np.min([np.linalg.norm(x-n) for n in res]) 替换了它。我会进一步测试。【参考方案2】:

决策树不学习绘制决策边界。它尝试根据最大信息增益点来拆分树。对于这个过程,决策树算法使用entropygini 索引。

由于这个原因,您无法找到点与决策边界之间的距离(没有决策边界)。

如果您愿意,您可以计算在图形上绘制的点和线之间的距离。所以它大致给出了一些结果。

【讨论】:

感谢您提供有用的信息。是的,但决策边界的概念仍然与决策树(以及距离)相关,例如幻灯片 7 here 或 here 点分类后可以绘制决策边界。我的意思是在决策树的训练阶段,没有任何决策边界。在训练阶段之后,您可以绘制或指定决策边界。至少我知道这样:) 我认为您可以在每个拆分节点步骤之后绘制决策边界,同样由于决策树的不连续性,您还可以在同一个拆分步骤中拥有许多不连贯的决策边界 @Bernardostearnsreisen 是的,是的。我们可以。我也添加了学习的树结构图。我认为这包含我们计算距离所需的输入,但我还没有为此想出一个算法。

以上是关于在决策树中查找到决策边界的距离的主要内容,如果未能解决你的问题,请参考以下文章

在决策树中查找非单调区域

决策树中的特征重要性、离散化和标准

决策树中的特征重要性、离散化和标准

R:从决策树中提取规则

scikit学习决策树导出graphviz - 决策树中的错误类名

能够将先验知识整合到决策树中的机器学习方法