从 scikit-learn 中的 one-hot-encoding 回溯分类特征？

Posted 2023-03-12

技术标签:

【中文标题】从 scikit-learn 中的 one-hot-encoding 回溯分类特征？【英文标题】：Backtracking categorical features from one-hot-encoding in scikit-learn? 【发布时间】：2016-03-02 07:16:48 【问题描述】：

我正在尝试构建一个套索回归预测模型。我在 scikit-learn 中使用 OneHotEncoder 使用 one-hot aka one-of-K 方案对所有分类整数特征进行编码。根据结果，实际上只有 51 个参数会影响预测模型。我想调查这些参数，但它们的编码如上所述。您知道如何提取哪个分类整数特征对应于哪个热编码数组吗？谢谢！

【问题讨论】：

检查feature_indices_ 属性。 How to reverse sklearn.OneHotEncoder transform to recover original data?的可能重复 【参考方案1】：

这行得通：

import pickle


with open('model.pickle', 'rb') as handle:
    one_hot_categories = pickle.load(handle)      


print(one_hot_categories.categories_)

【讨论】：

【参考方案2】：

我设计了 ple 来增强 sklearn 的 Pipeline 和 FeatureUnion，通过它我们还可以在 one-hot-encoding 或其他预处理步骤之后回溯分类特征。此外，我们可以通过 GraphX 来“绘制”变换：例如，

你可以在my Github page找到ple。

【讨论】：

【参考方案3】：

使用 sklearn.preprocessing.OneHotEncoder 的 active_features_、feature_indices_ 和 n_values_ 属性，按“位置”排序的分类特征向量one-hot数组中的创建方式如下：

import numpy as np
from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()
enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
enc.active_features_ - np.repeat(enc.feature_indices_[:-1], enc.n_values_)
# array([0, 1, 0, 1, 2, 0, 1, 2, 3], dtype=int64)

另外，可以从 one-hot 数组中返回原始数据，如下所示：

x = enc.transform([[0, 1, 1], [1, 2, 3]]).toarray()
# array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.],
#       [ 0.,  1.,  0.,  0.,  1.,  0.,  0.,  0.,  1.]])

cond = x > 0
[enc.active_features_[c.ravel()] - enc.feature_indices_[:-1] for c in cond]
# [array([0, 1, 1], dtype=int64), array([1, 2, 3], dtype=int64)]

【讨论】：

以上是关于从 scikit-learn 中的 one-hot-encoding 回溯分类特征？的主要内容，如果未能解决你的问题，请参考以下文章

Scikit-Learn - one-hot 编码熊猫数据帧的某些列

用于决策树的 one-hot 编码后如何解释特征重要性

如何从 PNG 为 Tensorflow 2 中的每个像素分类创建 One-hot 编码矩阵

使用 NumPy 从 Python 中的位置向量中没有 for 循环的 One-Hot 编码？

Scikit-Learn：在交叉验证期间避免数据泄漏

使用 Scikit-learn 确定 RF 模型中每个类别的特征重要性