以数字方式编码 Dataframe 特征

Posted 2023-03-12

技术标签:

【中文标题】以数字方式编码 Dataframe 特征【英文标题】：Encoding Dataframe features numerically 【发布时间】：2020-10-19 23:27:12 【问题描述】：

我有一个具有许多功能的数据框。有一个特殊的功能，它是完全动态的，我的目标是对其进行编码。我不能使用 one-hot 编码，因为值的唯一计数可能会改变。 LabelEncoder 可以用，但是类/目标标签的数量可以改变吗？

考虑一个示例（名称功能）：

index | A | B | Name
------+---+---+-----
  1     5   6    abc
  2     4   7    abc
  2     3   0    def
  2     3   0    ghi
  3     3   0    abc
  3     3   0    def

我希望将其编码为

index | A | B | Name
------+---+---+-----
  1     5   6    1
  2     4   7    1
  2     3   0    2
  2     3   0    3
  3     3   0    1
  3     3   0    2

还要记住，如果稍后出现与所有这些不同的另一个值，它们会自动通过下一个连续值存储在编码器中，即使下一行输入是

index | A | B | Name
------+---+---+-----
  1     5   6    xyz

它被编码并用作

index | A | B | Name
------+---+---+-----
  1     5   6    4

而我该如何取回原来的值呢？

【问题讨论】：

【参考方案1】：

您可以使用astype 类别，然后使用类别访问器.cat 来获取分配的代码：

df['Name'] = df['Name'].astype('category').cat.codes + 1

输出：

   index  A  B  Name
0      1  5  6     1
1      2  4  7     1
2      2  3  0     2
3      2  3  0     3
4      3  3  0     1
5      3  3  0     2

【讨论】：

但是，这是否像我所说的那样对新价值观具有灵活性？以及如何取回原始值？请创建最详尽的示例和测试用例。对不起，请查看已编辑的帖子。我后来意识到这一点并添加了它这很令人困惑......所以你有一个带有名称的原始数据帧，你对名称进行编码以生成一个新的数据帧。你回到原来的数据框插入一个新名字？您仍然可以再次对该名称进行编码。没有什么能阻止你这样做。问题是这是我正在构建的机器学习模型的数据。现在 xyz 标签或新标签甚至可以作为测试数据的一部分出现，并且可以看不见。这就是为什么我无法返回数据框并将其插入回【参考方案2】：

你可以试试factorize

df.Name=df.Name.factorize()[0]+1

【讨论】：

但是，这是否像我所说的那样对新价值观具有灵活性？以及如何取回原始值？

以上是关于以数字方式编码 Dataframe 特征的主要内容，如果未能解决你的问题，请参考以下文章

如何在 DataFrame 中将 Column 声明为分类特征以在 ml 中使用

R语言dataframe创建新的特征（变量）行加和特征行均值特征（基于加减乘除指数模数等操作符）创建新的特征（变量）生成编码特征（基于比较操作符逻辑操作符）

如何扩展输出显示以查看 Pandas DataFrame 的更多列？

R语言构建xgboost模型：使用xgboost模型训练tweedie回归模型，特征工程（dataframe转化到data.table独热编码缺失值删除DMatrix结构生成）

python离散特征编码

有序标称变量（Categorical Features）编码为数值变量（Continuous Features）详解及实践