如何生产 XG 提升 / 决策树 / 随机森林模型

Posted

技术标签:

【中文标题】如何生产 XG 提升 / 决策树 / 随机森林模型【英文标题】:How to productionize XG boost / Decision tree / Random forest model 【发布时间】:2017-12-20 23:05:59 【问题描述】:

我是分析新手,我正在研究各种生产模型的方法。假设对于线性回归,我们可以得到 y = mx + c 的方程,我们可以将其用于传入数据,我们可以将其从 R / SAS / Python 中取出并在任何数据库中使用......

如果我想在 R / SAS / Python 框架工作之外的传入数据上对 XG boost / Decison 树 / 随机森林进行生产,它是如何工作的?从哪里可以得到自变量的参数?

我从哪里得到要实现的方程式?

谢谢

【问题讨论】:

【参考方案1】:

决策树是三者中最简单的,只是 if then 语句。 GB本质上是自适应的。看似复杂,但评分代码并不复杂。 RF 是最麻烦的,不是因为它的逻辑,而是因为一个不太复杂的 RF 模型可以有数百万行 if-then。只是开销是杀戮。

与回归模型不同,这三个都不应该有任何参数。它们本质上都是树。如果您需要在 R、P 或 S 之外运行它们,请考虑 API 的路由。我见过人们非常快地用 XML 解析 RF。根据交付要求,您可能需要也可能不需要使用微服务。希望这可以帮助。

【讨论】:

您回答了一个有遗漏和误解的未回答问题,并提供了一些有用的建议。答案非常简洁和开放,但这至少部分反映了问题中的差距。你会因为一些进步而获得我的 +1。理想情况下,OP 会要求澄清(在此过程中对问题做出一些说明),您将为未来的读者改进答案。

以上是关于如何生产 XG 提升 / 决策树 / 随机森林模型的主要内容,如果未能解决你的问题,请参考以下文章

如何从提升树 Estimator 迁移到 TensorFlow 决策森林

如何从提升树 Estimator 迁移到 TensorFlow 决策森林

决策树、随机森林

随机森林(Random Forest)和梯度提升树(GBDT)有什么区别?

初始决策树与随机森林

决策树与随机森林