单标签多类分类随机森林python

Posted

技术标签:

【中文标题】单标签多类分类随机森林python【英文标题】:Single-label multiclass classification random forest python 【发布时间】:2020-01-31 17:01:39 【问题描述】:

我是机器学习的新手,我目前正在处理由分类数据组成的 csv 文件格式的数据集。作为一种预处理手段,我对数据集中的所有变量进行了热编码。

目前我正在尝试应用随机森林算法将条目分类为 4 个类别之一。我的问题是我不完全了解这些 One Hot Encoded 变量会发生什么。我如何将它们提供给算法?是否能够区分buying_price_high、buying_price_low(来自buying_price 的一个热编码)?

我也对响应变量进行了热编码。

【问题讨论】:

OHEd 是什么意思? 一个热编码 【参考方案1】:

(One Hot Encoder)的方法适用于类别变量,类别变量没有大小关系。对于价格变量,我建议你使用OrinalEncoder。sklearn是machine.like的一个很好的包,sklearn learning.preprocessing.OneHotEncoder或 sklearn.preprocessing.OrdinalEncoder

【讨论】:

【参考方案2】:

我猜您在理解 One Hot Encoder 时遇到了问题。假设您有 4 个类,一个热编码器会做什么,它将这些标签转换为二进制数,而 LabelEncoder 会给它们标签为 0、1、2、3 等等。最好使用 One Hot 编码器,因为 ML 模型会给标签 3 赋予比标签 2 更高的权重。

【讨论】:

以上是关于单标签多类分类随机森林python的主要内容,如果未能解决你的问题,请参考以下文章

如何提高随机森林多类分类模型的准确率?

Spark Random Forest classifier 随机森林分类

随机森林分类器批量学习 Python 维度错误

多类决策森林与随机森林

分类算法 - 随机森林

pyspark 随机森林回归器预测多类