随机森林的混合预测器类型
Posted
技术标签:
【中文标题】随机森林的混合预测器类型【英文标题】:mixed predicator types for Random forest 【发布时间】:2014-10-11 19:36:52 【问题描述】:我正在尝试使用随机森林为具有 5 个预测变量的数据集构建分类模型。两个预测变量是连续类型的,一个可以是[0, 1000]
区间内的实数值,另一个可以是[-10, 10]
区间内的实数值;一个预测变量是整数值[10000, 15000]
。此外,剩下的两个预测变量是分类值,即 A, B, C, D, E F
和NY, LA, Chicago
。预处理这些不同的预测器类型是否需要任何程序?
【问题讨论】:
【参考方案1】:许多穷举搜索算法将偏向于具有多个值的变量。如this 论文所述,分离变量选择和拆分选择过程似乎对此有所帮助。他们也在 R 中实现了package。我不知道如何使用更常见的方法来避免混合类型数据的这种情况。然而,尽管这个问题会导致偏差,但根据我的经验,预测性能并没有太大的不同,所以你的里程可能会有所不同。这取决于你在做什么。无论哪种方式,我都会做一些模拟。同一组有两篇关于条件排列重要性的 bmc 生物信息学论文讨论了这些问题。
【讨论】:
以上是关于随机森林的混合预测器类型的主要内容,如果未能解决你的问题,请参考以下文章