[机器学习与scikit-learn-45]：特征工程-特征选择(降维)-1-哈希向量

Posted 2022-04-06 文火冰糖的硅基工坊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[机器学习与scikit-learn-45]：特征工程-特征选择(降维)-1-哈希向量相关的知识，希望对你有一定的参考价值。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：

前言：

上述模型的方法在文本中单词数量较小时很好用，也很直接，但在有些场景下很难使用，比如分词后的词汇字典表非常大，达到100万+词（不是单字上百万个），此时如果直接使用词频向量或Tf-idf权重向量的方法，那么文本的特征向量的分量太多，占用的内存太大。有可能将内存撑爆。

在这种情况下我们该怎么办呢？

我们可以应用哈希向量技巧进行降维， 哈希向量是一种特征降维的技术手段。

无论是词频向量，还是权重向量，对于文本而言，每个单词代表一个维度的特征，单词的词频或权重值，就是该特征的特征值。

推广：

然后，有时候，特征值太多，并非所有的特征值都能够其关键作用，按照辩证唯物主义的观点，万事万物都有联系和普遍矛盾的，导致一个结果的原因有多种，有主要因素和次要因素，而矛盾有主要矛盾和矛盾的主要方面（特征），决结果产生影响的往往是主要矛盾和矛盾的主要方面。因此，不加区分的选择所有的特征参与模型计算，导致大量的计算工作放在次要矛盾的次要因素（特征）上。

有没有方法忽略这些次要矛盾或次要因素呢？

特征的降维就是这样的一种技术手段，hash向量就是特征降维的一种方法。

第1章特征降维

1.1 降维的原因

样本所包含的特征过多，过于庞大，导致计算量暴增。

而部分特征的特征性和区分性很小，这些特征对最终的结果其实影响很小。

1.2 特性降维的目的

去除掉矛盾中的次要方面和次要因素（特征），保留主要方面和主要特征。

提升计算和决策的速度和效率。

1.3 什么是特征降维

所谓特征降维，就是较少、降低特征的维度。

简单的说，对所有的特征，该合并的合并，该去掉的去掉，

1.4 降维的缺点

部分特征信息的丢失

关于特征降维技术，后续会进一步的深入阐述。

第2章哈希特征提取概述

2.1 Hash的本质是“合并”

（1）什么是hash

Hash是一种多对1的数据结构，在计算机中，是一个非常基础性的数据结构。

（2）什么是Hash表

散列表（Hash table，也叫哈希表），是根据关键码值(Key value)而直接进行访问的数据结构。也就是说，它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数叫做散列函数，存放记录的数组叫做散列表。

（3）Hash函数

给定表M，存在函数f(key)，对任意给定的关键字值key，代入函数后若能得到包含该关键字的记录在表中的地址，则称表M为哈希(Hash）表，函数f(key)为哈希(Hash) 函数。

2.2 hash冲突以及处理方法

既然是多对一，就会出现多个输入关键值key，映射到相同的位置，这就是函数冲突。

解决hash冲突的方法与hash的应用相关。

（1）Hash表 + 链表

上述方法，并非是为了降维，而是为了进行快速、高效的数据存储和访问。

因此，需要通过链表存储所有的信息。

（2）合并降维：Hash的本质是“合并”

有些应用场合，需要把映射到相同位置的输入，合并在一起，不需要链表区分具备相同映射索引的输入，映射后具备相同索引的所有输入，合并为同一类型，起到降维的目的。

文本hash编码就采用的这种策略。

2.3 Hash映射在文本编码中的应用

在文本分类中，特征的基本单元是“单词”，每个单词是一个特征，该单词出现的词频是特征值。

Hash函数可以将任意个数的单词，一个个映射到一个固定长度的散列数字中去。

这个映射的过程，就完成了不同单词的合并！！！即不同特征的合并，并给出了合并后的特征的编号[0 - (N-1)]。

比如有100万个单词的文本，如果没有hash，这就有100万种特征，假设Hahs表的长度N=1万，经过Hash之后，这些100万个特征就被合并成了1万特征，合并的方法就是Hahs函数。

2.4 Hash函数的特征

Hash函数是一种典型的多对一映射，这种映射具备如下的特征：

（1）正向快速：

给定明文和 hash 算法，在有限时间和有限资源内能计算出 hash 值。

（2）逆向困难：

给定（若干） hash 值，在有限时间内很难（基本不可能）逆推出明文。

（3）输入敏感：

原始输入信息修改一点信息，产生的 hash 值看起来应该都有很大不同。

（4）碰撞避免：

很难找到两段内容不同的明文，使得它们的 hash 值一致（发生碰撞）。即对于任意两个不同的数据块，其hash值相同的可能性极小；对于一个给定的数据块，找到和它hash值相同的数据块极为困难。

（5）输出长度任意指定：

可以指定任意指定输出长度，比如指定N=10或N=1000.

目前流行的Hash函数, 包括MD4,MD5,SHA等。

2.5 Hash映射本质是特征提取

hash映射的本质是特征提取，就原始的单词数据中，提取能够用于机器学习模型的特征。

（1）特征提取的方法：hash函数

（2）特征提取的输入：文本经过分词后的单词+词频

（3）特征提取后的输出：hash索引+词频

（4）hash之后的进一步处理：hash索引+词频=》转换成=》Hash词向量

每个索引代表一种特征，并采用OneHot编码，作为特征所在的位置！！！

该位置上的数值，就是特征该特征的特征值，就得到了特征向量！！！

如下图所示：

第3章代码案例

3.1 核心代码

（1）生成hash函数对象，创建hash表

vectorizer = HashingVectorizer(n_features=6,stop_words = 'english')

（2）使用输入数据，进行hash映射

outputs = vectorizer.transform(输入数据)

（3）获得合并、映射后表格

3.2 案例1：hash映射

from sklearn.feature_extraction.text import HashingVectorizer

corpus = ['smart boy', 'ate', 'bacon', 'a cat']

# Hashingvectorizer是无状态的，你不需要fit它
# Hash向量化时，这里指定向量长度为6
vectorizer = HashingVectorizer(n_features=6,stop_words = 'english')

# 进行hash转换
counts = vectorizer.transform(corpus).todense()

# 显示转换后的结果
print(counts)

[[-0.70710678 -0.70710678  0.          0.          0.          0.        ]
 [ 0.          0.          0.          1.          0.          0.        ]
 [ 0.          0.          0.          0.         -1.          0.        ]
 [ 0.          1.          0.          0.          0.          0.        ]]

备注：

长度任意指定：

不管输入文本的长度如何，不管输入文本中包含多少个“词”，输出词向量都会被hash成长度为6的词向量。

归一化：每个向量的分量值都会被限制在[0,1]之间。

3.3 案例2：hash合并

from sklearn.feature_extraction.text import HashingVectorizer

corpus = [
'UNC played Duke in basketball',
'Duke lost the basketball game,game over',
'I ate a sandwich'
]

# 生成转换对象
vectorizer = HashingVectorizer(n_features = 3)

# 进行转换
counts = vectorizer.transform(corpus).todense()

# 显示转换后的结果
print(counts)

counts.shape

[[ 0.          0.         -1.        ]
 [-0.33333333 -0.66666667 -0.66666667]
 [ 0.70710678  0.          0.70710678]]

Out[28]:

(3, 3)

备注：

Hash表达长度N越小，Hash冲突的可能性越大。

作者主页(文火冰糖的硅基工坊)：文火冰糖（王文兵）的博客_文火冰糖的硅基工坊_CSDN博客

本文网址：

以上是关于[机器学习与scikit-learn-45]：特征工程-特征选择(降维)-1-哈希向量的主要内容，如果未能解决你的问题，请参考以下文章

Python 与金融数据｜生成机器学习的标签和特征

机器学习实战 | 机器学习特征工程最全解读

机器学习 - 特征筛选与降维

如何使用机器学习模型（或其特征系数）来解释该特征是不是与特定类别相关？

[机器学习与scikit-learn-42]：特征提取-1-从字典中提取特征

机器学习特征筛选：相关系数法（correlation）