如何按严重程度排序分类字符串特征？

Posted 2023-03-12

技术标签:

【中文标题】如何按严重程度排序分类字符串特征？【英文标题】：How to order categorical string features in order of severity? 【发布时间】：2018-12-26 15:54:24 【问题描述】：

如果我的数据集的特征之一是分类字符串的分数，例如：

Score
X1c
X3a
X1a
X2b
X4
X1a
X1b
X4

其中X1a 最弱，其次是X1b, X1c, X2a, X2b ...X4，X4 最强，我如何将其编码为整数，使得X1a 可以是最低整数，X4 是最高整数。我正在寻找使用随机森林分类器。此外，训练集是一个单独的数据集，因此应该为新数据集维护这种编码。

【问题讨论】：

你为完成这个任务做了什么？ LabelEncoder，在 scikit-learn 中，它就是用来按您需要的字母顺序排列数据的。 【参考方案1】：

您可以尝试使用排名：

df['Score_int'] = df.Score.rank(method='dense')

输出：

  Score  Score_int
0   X1c        3.0
1   X3a        5.0
2   X1a        1.0
3   X2b        4.0
4    X4        6.0
5   X1a        1.0
6   X1b        2.0
7    X4        6.0

【讨论】：

以上是关于如何按严重程度排序分类字符串特征？的主要内容，如果未能解决你的问题，请参考以下文章