Spark(pyspark)中的决策树模型如何可视化?

Posted

技术标签:

【中文标题】Spark(pyspark)中的决策树模型如何可视化?【英文标题】:How can decision tree model in Spark (pyspark) be visualized? 【发布时间】:2016-07-08 11:00:33 【问题描述】:

我正在尝试在 pyspark 中可视化决策树结构。但是所有的工具都是为了数据。我找不到任何可视化树结构的​​东西。或者有没有一种方法可以使用toDebugString 中的规则进行可视化?

【问题讨论】:

有没有办法将 pyspark 决策树移植到 scikit 广告然后使用 sklearn 生成 graphviz dot 文件? 【参考方案1】:

我已尝试执行以下操作以创建可视化:

    将 Spark 决策树输出解析为 JSON 格式。 使用JSON 文件作为D3.js 可视化的输入。

更多代码可以参考我在 GitHub 上的原型here。

【讨论】:

【参考方案2】:

我也是一名大数据/ml 工程师,我有很多时间需要可视化 Spark 的决策树。

我们刚刚发布了dtreeviz 1.1,其中包括对 Spark 的支持。 您现在可以可视化树结构、叶子信息、预测路径等。只需查看此notebook 以获取更多示例。

【讨论】:

以上是关于Spark(pyspark)中的决策树模型如何可视化?的主要内容,如果未能解决你的问题,请参考以下文章

如何在 Apache Spark (PySpark 1.4.1) 中可视化/绘制决策树?

Spark中决策树源码分析

在scala中将spark决策树模型调试字符串转换为嵌套JSON

将决策树训练分类器的模型输出保存为 Spark Scala 平台中的文本文件

如何在 R 中绘制/可视化 C50 决策树?

dtreeviz:一款超级棒的决策树可视化和模型可解释性工具