类别的one-hot编码

Posted 2023-03-12

技术标签:

【中文标题】类别的one-hot编码【英文标题】：One-hot encoding of categories 【发布时间】：2017-06-21 10:05:32 【问题描述】：

我有一个类似这样的列表：

list = ['Opinion, Journal, Editorial',
        'Opinion, Magazine, Evidence-based',
        'Evidence-based']

逗号在类别之间分隔的位置，例如。意见和期刊是两个独立的类别。真正的列表要大得多，并且有更多可能的类别。我想使用 one-hot 编码来转换列表，以便它可以用于机器学习。例如，从该列表中，我想生成一个包含以下数据的稀疏矩阵：

list = [[1, 1, 1, 0, 0],
        [1, 0, 0, 0, 1],
        [0, 0, 0, 0, 1]]

理想情况下，我想使用scikit-learn's one hot encoder，因为我认为这将是最有效的。

回复@nbrayns评论：

这个想法是将类别列表从文本转换为向量 wherby，如果它属于该类别，它将被分配 1，否则为 0。对于上面的示例，标题将是：

headings = ['Opinion', 'Journal', 'Editorial', 'Magazine', 'Evidence-based']

【问题讨论】：

什么值应该是 1，什么应该是 0？ @nbryans 已编辑问题。 【参考方案1】：

如果你能够使用 Pandas，这个功能基本上是内置的：

import pandas as pd

l = ['Opinion, Journal, Editorial', 'Opinion, Magazine, Evidence-based', 'Evidence-based']
pd.Series(l).str.get_dummies(', ')

   Editorial  Evidence-based  Journal  Magazine  Opinion
0          1               0        1         0        1
1          0               1        0         1        1
2          0               1        0         0        0

如果您想坚持使用sklearn 生态系统，您正在寻找MultiLabelBinarizer，而不是OneHotEncoder。顾名思义，OneHotEncoder 每个类别每个样本只支持一个级别，而您的数据集有多个。

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()  # pass sparse_output=True if you'd like
mlb.fit_transform(s.split(', ') for s in l)

[[1 0 1 0 1]
 [0 1 0 1 1]
 [0 1 0 0 0]]

要将列映射回分类级别，您可以访问mlb.classes_。对于上面的例子，这给出了['Editorial' 'Evidence-based' 'Journal' 'Magazine' 'Opinion']。

【讨论】：

不管类别的顺序如何，这项工作是否有效？ @user7347576 是的，如果你问Opinion, Journal 或Journal, Opinion 是否有所作为，它不会。【参考方案2】：

另一种方式：

l = ['Opinion, Journal, Editorial', 'Opinion, Magazine, Evidence-based', 'Evidence-based']

# Get list of unique classes
classes = list(set([j for i in l for j in i.split(', ')]))
=> ['Journal', 'Opinion', 'Editorial', 'Evidence-based', 'Magazine']

# Get indices in the matrix
indices = np.array([[k, classes.index(j)] for k, i in enumerate(l) for j in i.split(', ')])
=> array([[0, 1],
          [0, 0],
          [0, 2],
          [1, 1],
          [1, 4],
          [1, 3],
          [2, 3]])

# Generate output
output = np.zeros((len(l), len(classes)), dtype=int)
output[indices[:, 0], indices[:, 1]]=1
=> array([[ 1,  1,  1,  0,  0],
          [ 0,  1,  0,  1,  1],
          [ 0,  0,  0,  1,  0]])

【讨论】：

【参考方案3】：

这可能不是最有效的方法，但可能很容易掌握。如果您还没有所有可能单词的列表，则需要创建它。在下面的代码中，它被称为unique。输出矩阵s 的列将对应于那些唯一的词；这些行将是列表中的项目。

import numpy as np

lis = ['Opinion, Journal, Editorial','Opinion, Magazine, Evidence-based','Evidence-based']

unique=list(set(", ".join(lis).split(", ")))
print unique
# prints ['Opinion', 'Journal', 'Magazine', 'Editorial', 'Evidence-based']

s = np.zeros((len(lis), len(unique)))
for i, item in enumerate(lis):
    for j, notion in enumerate(unique):
        if notion in item:
            s[i,j] = 1

print s
# prints [[ 1.  1.  0.  1.  0.]
#         [ 1.  0.  1.  0.  1.]
#         [ 0.  0.  0.  0.  1.]]

【讨论】：

【参考方案4】：

在pandas很容易：

import pandas as pd
s = pd.Series(['a','b','c'])
pd.get_dummies(s)

输出：

【讨论】：

以上是关于类别的one-hot编码的主要内容，如果未能解决你的问题，请参考以下文章

one-hot 编码的可用类别的一致性

多类分割One-hot 编码实现方式（转）

机器学习One-Hot编码

one-hot编码（pytorch实现）

Pytorch基本使用（2）Tensor转成one-hot形式

分类数据集的 One-hot 编码：如何处理分类数据中的不同值（数量较少）