如何从每个节点提取sklearn决策树规则到pandas布尔条件?
Posted
技术标签:
【中文标题】如何从每个节点提取sklearn决策树规则到pandas布尔条件?【英文标题】:How to extract sklearn decision tree rules from every node to pandas boolean conditions? 【发布时间】:2020-04-04 04:19:52 【问题描述】:此问题与此处链接的问题类似(并且可能是其简单扩展):
How to extract sklearn decision tree rules to pandas boolean conditions?
以上链接的解决方案综合如下:
首先让我们使用关于决策树的 scikit 文档 结构以获取有关已构建树的信息:
n_nodes = clf.tree_.node_count children_left = clf.tree_.children_left children_right = clf.tree_.children_right feature = clf.tree_.feature threshold = clf.tree_.threshold
然后我们定义两个递归函数。第一个会找到 从树根的路径创建一个特定的节点(所有的叶子在 我们的案例)。第二个会写用于创建的具体规则 使用其创建路径的节点:
def find_path(node_numb, path, x): path.append(node_numb) if node_numb == x: return True left = False right = False if (children_left[node_numb] !=-1): left = find_path(children_left[node_numb], path, x) if (children_right[node_numb] !=-1): right = find_path(children_right[node_numb], path, x) if left or right : return True path.remove(node_numb) return False def get_rule(path, column_names): mask = '' for index, node in enumerate(path): #We check if we are not in the leaf if index!=len(path)-1: # Do we go under or over the threshold ? if (children_left[node] == path[index+1]): mask += "(df['']<= ) \t ".format(column_names[feature[node]], threshold[node]) else: mask += "(df['']> ) \t ".format(column_names[feature[node]], threshold[node]) # We insert the & at the right places mask = mask.replace("\t", "&", mask.count("\t") - 1) mask = mask.replace("\t", "") return mask
最后,我们使用这两个函数先存储路径 每个叶子的创建。然后存储用于创建每个规则的规则 叶:
Leaves leave_id = clf.apply(X_test) paths = for leaf in np.unique(leave_id): path_leaf = [] find_path(0, path_leaf, leaf) paths[leaf] = np.unique(np.sort(path_leaf)) rules = for key in paths: rules[key] = get_rule(paths[key], pima.columns)
根据你给出的数据,输出是:
rules = 3: "(df['insulin']<= 127.5) & (df['bp']<= 26.450000762939453) & (df['bp']<= 9.100000381469727) ", 4: "(df['insulin']<= 127.5) & (df['bp']<= 26.450000762939453) & (df['bp']> 9.100000381469`727)", 6: "(df['insulin']<= 127.5) & (df['bp']> 26.450000762939453) & (df['skin']<= 27.5) ", 7: "(df['insulin']<= 127.5) & (df['bp']> 26.450000762939453 & (df['skin']> 27.5) ", 10: "(df['insulin']> 127.5) & (df['bp']<= 28.149999618530273) &(df['insulin']<= 145.5) ", 11: "(df['insulin']> 127.5) & (df['bp']<= 28.149999618530273) & (df['insulin']> 145.5) ", 13: "(df['insulin']> 127.5) & (df['bp']> 28.149999618530273) & (df['insulin']<= 158.5) ", 14: "(df['insulin']> 127.5) & (df['bp']> 28.149999618530273) & (df['insulin']> 158.5) "
由于规则是字符串,你不能直接调用它们 df[rules[3]],你必须像这样使用 eval 函数 df[eval(rules[3])]
上面发布的解决方案非常适合查找每个终止节点的路径。我想知道是否可以以与上述链接(字典/列表格式)完全相同的输出格式存储每个节点(叶子和终止节点)的路径。
谢谢!
【问题讨论】:
【参考方案1】:好的,所以我想出了一个解决我的问题的方法(尽管我不相信这是最好/最有效的方法),它也不是我问题的直接答案(我没有存储路径对于每个单独的节点 - 只需创建一个能够解析存储信息的函数)。它是上述解决方案的第二部分,允许您为要查找的特定节点提取子集数据。
node_id = 3
def datatree_path_summarystats(node_id):
for k, v in paths.items():
if node_id in v:
d = k,v
ruleskey = d[0]
numberofsteps = sum(map(lambda x : x<node_id, d[1]))
for k, v in rules.items():
if k == ruleskey:
b = k,v
stringsubset = b[1]
datasubset = "&".join(stringsubset.split('&')[:numberofsteps])
return datasubset
datasubset = datatree_path_summarystats(node_id)
df[eval(datasubset)]
此函数会遍历包含您要查找的节点 ID 的路径。然后,它将根据节点数量拆分规则,从而创建基于该特定节点对数据帧进行子集化的逻辑。
【讨论】:
以上是关于如何从每个节点提取sklearn决策树规则到pandas布尔条件?的主要内容,如果未能解决你的问题,请参考以下文章
sklearn库学习----决策树(分类树DecisionTreeClassifier)
如何解释sklearn决策树树中的children_left属性_