特征选择/特征提取

Posted 2022-08-02 wang615

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了特征选择/特征提取相关的知识，希望对你有一定的参考价值。

定义：

特征选择是一个「降维」的过程，是一个去掉无关特征，保留相关特征的过程。从所有特征集中选取最好的一个特征子集。
特征提取是一个将机器学习算法不能识别出来的原始数据转变成可以识别到数据特征的过程。没有「筛选」的操作，不需要考虑特征是否有用，所以并不能称其为降维。

1. 比如说，文本是由一系列文字组成的，这些文字在经过分词后会形成一个词语集合，对于这些词语集合（原始数据），机器学习算法是不能直接使用的，我们需要将它们转化成机器学习算法可以识别的数值特征（固定长度的向量表示），然后再交给机器学习的算法进行操作。
2. 再比如说，图片是由一系列像素点构（原始数据）成的，这些像素点本身无法被机器学习算法直接使用，但是如果将这些像素点转化成矩阵的形式（数值特征），那么机器学习算法就可以使用了。

通过实例理解，以文本分类为例：

　　假设语料库里有若干文章，现在要对其中一篇文章做分词处理，把每篇文章都看作是一个词语的集合。然后将每篇文章作为数据来训练分类模型，由于原始数据都是单词并且每篇文章的词语个数不同，所以不能直接被机器学习算法所利用。因为机器学习需要的是定长的数值化特征，所以我们的目的就是要将所有的原始数据变成数值化来表示，这就是所谓的特征提取。具体步骤如下：

1. 先对训练数据里的每一篇文章，做词语统计（停用词去除掉），以形成一个词语向量。最后效果是每一个词语都代表词语向量中的一个元素。
2. 现在每一篇文章都可以用词语向量来表示，不同的文章有不同的向量值，这也就是表示文本的词袋模型（bag of words）。
3. 针对一篇特定的文章，可以利用0-1法来表示其向量的每一个元素的赋值。简单来说，对于每一篇文章，我们扫描它的词语集合，如果某一个词语出现在了词典中，那么该词语在词典向量中对应的元素置为1，否则为0。这是最简单的方式。其它的方式还包括IR中著名的tf-idf。

　　现在每一篇文章已经特征全部提取完毕，但是一定是会有许多无用的特征，这时候就得开始特征选择。

注：

1. 词袋模型：不考虑词语出现的顺序，将每个出现过的词语单独作为一列特征，这些不重复的特征词汇集合成词表。每一个文本都可以在很长的词表上统计出一个很多列的特征向量，如果每个文本都出现的词汇，一般被标记为停用词，不计入特征向量。

以上是关于特征选择/特征提取的主要内容，如果未能解决你的问题，请参考以下文章