pyspark---randomForests 使用“categoricalFeaturesInfo”指定分类变量

Posted

技术标签:

【中文标题】pyspark---randomForests 使用“categoricalFeaturesInfo”指定分类变量【英文标题】:pyspark---randomForests specify categorical variables using "categoricalFeaturesInfo" 【发布时间】:2015-06-25 11:17:07 【问题描述】:

如何在 pyspark randomForests 中指定 categoricalFeaturesInfo?

文档对此不是很清楚,我尝试了一些类似的方法:

categoricalFeaturesInfo= (12,4)

categoricalFeaturesInfo= (12->4)

categoricalFeaturesInfo= 地图[int,int](12,4)

... 等等,但它们都不起作用。非常感谢任何帮助。

【问题讨论】:

【参考方案1】:

适用于 spark 2.0 及以上版本

它是一本字典 以键作为 rdd(feature) 中变量的索引/位置 和值作为类别数

【讨论】:

【参考方案2】:

从我们拥有的python文档中:

categoricalFeaturesInfo: Map storing arity of categorical
             features.  E.g., an entry (n -> k) indicates that
             feature n is categorical with k categories indexed
             from 0: 0, 1, ..., k-1.

尝试使用:

categoricalFeaturesInfo = 12:4

【讨论】:

categoricalFeaturesInfo = 12:4:也不工作 我的错,我忘了这里的 python 索引从 0 开始......所以 categoricalFeaturesInfo = 11:4 有效 如何使用months 变量,类别从1 到12?如果months 是第一列:categoricalFeaturesInfo = 0:12 将不起作用,因为它将查找 0 到 11 之间的类别!

以上是关于pyspark---randomForests 使用“categoricalFeaturesInfo”指定分类变量的主要内容,如果未能解决你的问题,请参考以下文章

“第二信使”都有哪些?与它作用的物质都有哪些?

使引导容器大小变大会使页面无响应

Css使Div自适应居中

如何用word使图片上下居中

如何使 RelativeLayout 半透明但不使活动

如何使图像自动调整大小,使宽度为 100% 并相应调整高度?