如何在单热编码中修复“索引 3 超出轴 1 大小为 3 的范围”? [复制]

Posted

技术标签:

【中文标题】如何在单热编码中修复“索引 3 超出轴 1 大小为 3 的范围”? [复制]【英文标题】:how to fix "index 3 is out of bounds for axis 1 with size 3" in one-hot encoding? [duplicate] 【发布时间】:2019-08-29 05:20:06 【问题描述】:

我正在使用 python 进行单热编码。但是当我运行 one-hot-encoding 时出现了一些问题

def one_hot_encode(labels):
    n_labels = len(labels)
    n_unique_labels = len(np.unique(labels))
    one_hot_encode = np.zeros((n_labels,n_unique_labels))
    one_hot_encode[np.arange(n_labels), labels] = 1
    return one_hot_encode

这就是我以前运行 one-hot endcode 的方式

而且数据是这样的……

[3 3 3 3 3 2 2 2 2 2 1 1 1 1 1]

出现这个错误

“索引 3 超出了轴 1 大小为 3 的范围”

我尝试另一条路...

修改部分代码

one_hot_encode = np.zeros((n_labels,n_unique_labels+1))

这正在运行,但它不是 3 个类... 结果是这样的

array([[0., 0., 0., 1.],
   [0., 0., 0., 1.],
   [0., 0., 0., 1.],
   [0., 0., 0., 1.],
   [0., 0., 0., 1.],
   [0., 0., 1., 0.],
   [0., 0., 1., 0.],
   [0., 0., 1., 0.],
   [0., 0., 1., 0.],
   [0., 0., 1., 0.],
   [0., 1., 0., 0.],
   [0., 1., 0., 0.],
   [0., 1., 0., 0.],
   [0., 1., 0., 0.],
   [0., 1., 0., 0.]])

我该如何解决这个问题?

【问题讨论】:

【参考方案1】:

错误来自[3 3 3 3 3 2 2 2 2 2 1 1 1 1 1]。您的映射中有 3 np.array,这意味着在某些位置您试图等于 index 3 to 1,但问题是 映射数组中的最大索引是 2

def one_hot_encode(labels):
    n_labels = len(labels) # this will give 15
    n_unique_labels = len(np.unique(labels)) # this will give 3
    one_hot_encode = np.zeros((n_labels,n_unique_labels)) # will create 15x3 matrix
    one_hot_encode[np.arange(n_labels), labels] = 1 # error here you try to map index 3 to 1 which does not exist
    return one_hot_encode

只需将映射数组从 [3, 3, 3, 3, 3, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1] 更改为 [2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

【讨论】:

以上是关于如何在单热编码中修复“索引 3 超出轴 1 大小为 3 的范围”? [复制]的主要内容,如果未能解决你的问题,请参考以下文章

Pandas Dataframe:如何将一列拆分为多个单热编码列[重复]

如何将数据框列的分类值转换为 sckikit-learn 中的单热编码列?

“特征重要性”的“单热编码”变量的显示名称

熊猫单热编码列到假人,包括“其他”编码[重复]

pd.get_dummies 是单热编码吗?

使用单热编码处理sklearn中的分类变量