文本特征提取

Posted 2023-04-07

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了文本特征提取相关的知识，希望对你有一定的参考价值。

参考技术A

在对文本数据进行处理时，很大一部分精力都用在数据集的特征提取上，因此记录一下常用的文本特征提取方法。

文本特征提取一般分为两部分
（1）文本本身属性：元音字数数、辅音字母数、···
（2）基于文本的特征提取：TF-IDF等

比如提取以上文档的特征，基于文本本身可以提取特征：
（1）字数：统计每一行text文本的词汇数量（有多少个单词）
（2）非重复单词数量：统计每一行text文本中只出现一次的单词个数
（3）长度：每一行text的长度,占了多少存储空间（包含空格、符号、字母等的长度）
（4）停止词数量统计：between、but、about、very等词汇的数量统计
（5）标点符号数量：每一行text中包含的标点符号数量
（6）大写单词数量：统计大写单词数量
（7）标题式单词数量：统计单词拼写首字母是否为大写,且其他字母为小写的单词数量
（8）单词的平均长度：每一行text中每个单词长度的平均值
这些特征的提取不涉及复杂的函数计算，基于文本本身属性提取直观信息作为模型训练的特征。

TF-IDF算法：计算单词权重最为有效的实现方法就是TF-IDF, 它是由Salton在1988 年提出的,以特征词在文档d中出现的次数与包含该特征词的文档数之比作为该词的权重。

python中使用TfidfVectorizer函数实现TF-IDF特征的提取，生成每个text的TF-IDF特征。

经过TF-IDF特征提取后，数据集的特征变量超级多（TF-IDF计算了整个数据集出现的所有单词对每个test的权重），面对这样庞大的特征数据，可以通过SVD实现对数据集的压缩。
SVD的原理是将庞大的TF-IDF生成的数据集A进行拆分，设置K值（想要压缩得到的维度，例如K=20，压缩后得到20列的特征数据集）X就是只有K个特征转换后的数据集。

经过压缩后的TF-IDF只有K列，与01中 基于文本本身特征 合并，即为文本数据集的特征向量。

零基础学Python--机器学习：特征提取

@TOC

特征提取

学习目标

应用DictVectorizer实现对类别特征进行数值化、离散化
应用CountVectorizer实现对文本特征进行数值化
应用TfidfVectorizer实现对文本特征进行数值化
说出两种文本特征提取的方式区别

什么是特征提取呢？

1.特征提取

将任意数据（如文本或图像）转换为可用于机器学习的数字特征

注：特征值化是为了计算机更好的去理解数据

字典特征提取(特征离散化)
文本特征提取
图像特征提取（深度学习将介绍）

特征提取API

sklearn.feature_extraction

2.字典特征提取

作用：对字典数据进行特征值化 -类别->one-hot编码
sklearn.feature_extraction.DictVectorizer(sparse=True,…)

DictVectorizer.fit_transform(X) X:字典或者包含字典的迭代器返回值：返回sparse矩阵
DictVectorizer.inverse_transform(X) X:array数组或者sparse矩阵返回值:转换之前数据格式
DictVectorizer.get_feature_names() 返回类别名称

vector:向量

矩阵 matrix 二维数组
向量学习投入一维数组

父类：转换器类

返回sparse矩阵
sparse稀疏
- 将非零值按位置表示出
- 节省内存 - 提高加载效率

2.1 应用

我们对以下数据进行特征提取：

[city: 北京,temperature:100
city: 上海,temperature:60
city: 深圳,temperature:30]

2.2流程分析

我们对以下数据进行特征提取

[city: 北京,temperature:100
city: 上海,temperature:60
city: 深圳,temperature:30]

实例化类DictVectorizer
调用fit_transform方法输入数据并转换（注意返回格式）
没有加上sparse=False

DictVectorizer()：默认sparse=True
```
from sklearn.feature_extraction import DictVectorizer
```

def dict_demo():
"""
对字典类型的数据进行特征抽取
:return: None
"""
data = [city: 北京,temperature:100, city: 上海,temperature:60, city: 深圳,temperature:30]

1、实例化一个转换器类

transfer = DictVectorizer()
# 2、调用fit_transform
data = transfer.fit_transform(data)
print("返回的结果:\\n", data)
# 打印特征名字
print("特征名字：\\n", transfer.get_feature_names())

return None


![在这里插入图片描述](https://s2.51cto.com/images/blog/202208/28181016_630b3f083fa9a92807.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
这个结果并不是我们想要看到的，所以加上参数，得到想要的结果：
#### 加上sparse=False

![在这里插入图片描述](https://s2.51cto.com/images/blog/202208/28181016_630b3f085e7bd97769.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
我们可以看这两个有什么关系：
第一个其实是sparse稀疏矩阵，就是**把第二个中的非零元素用坐标表示出来啦**
1. 将非零值 按位置表示出来
 2. 节省内存 - 提高加载效率

我们把这个处理数据的技巧叫做”one-hot“编码。
![在这里插入图片描述](https://s2.51cto.com/images/blog/202208/28181016_630b3f0850e3d25584.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
转化为：
![在这里插入图片描述](https://s2.51cto.com/images/blog/202208/28181016_630b3f088025358778.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
### 2.3总结
**应用场景：**
                            **1）pclass, sex 数据集当中类别特征比较多**
 -  1、将数据集的特征-》字典类型
 - 2、DictVectorizer转换

 **2）本身拿到的数据就是字典类型**
**对于特征当中存在类别信息的我们都会做one-hot编码处理**
## 3.文本特征提取
**作用：对文本数据进行特征值化**
 单词 作为 特征
             句子、短语、单词、字母
                 特征：特征词
#### 方法1：CountVectorizer
**sklearn.feature_extraction.text.CountVectorizer(stop_words=[])**
返回词频矩阵，**stop_words停用的**
- CountVectorizer.fit_transform(X) X:文本或者包含文本字符串的可迭代对象 返回值：返回sparse矩阵
- CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格
- CountVectorizer.get_feature_names() 返回值:单词列表
####  方法2：TfidfVectorizer
TF-IDF - 重要程度
                            两个词 “经济”，“非常”
                            **看4.Tf-idf文本特征提取**
### 3.1应用
我们对以下数据进行特征提取

```python
["life is short,i like python",
"life is too long,i dislike python"]

3.2流程分析

实例化类CountVectorizer
调用fit_transform方法输入数据并转换（注意返回格式，利用toarray()进行sparse矩阵转换array数组）

from sklearn.feature_extraction.text import CountVectorizer

def text_count_demo():
    """
    对文本进行特征抽取，countvetorizer
    :return: None
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(data)
    print("文本特征抽取的结果：\\n", data.toarray())
    print("返回特征名字：\\n", transfer.get_feature_names())

    return None

返回结果：
统计每个样本特征词出现的个数

关键词消除

stop_words 消除不需要的关键词

def count_demo():
    """
    文本特征抽取：CountVecotrizer
    :return:
    """
    data = ["life is short,i like python", "life is too long,i dislike python"]
    # 1、实例化一个转换器类
    transfer = CountVectorizer(stop_words=[is,too])

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new.toarray())
    print("特征名字：\\n", transfer.get_feature_names())

    return None

问题:如果我们将数据替换成中文？

"我爱北京天安门", "天安门上太阳升"

def count_chinese_demo():
    """
    中文文本特征抽取：CountVecotrizer
    :return:
    """
    data = ["我爱北京天安门", "天安门上太阳升"]
    # 1、实例化一个转换器类
    transfer = CountVectorizer()

    # 2、调用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\\n", data_new.toarray())
    print("特征名字：\\n", transfer.get_feature_names())
    return None

那么最终得到的结果是：

只是因为它不会把中文分开，只是按照‘，’将字符串分开，我们此时用空格把这句话分一下，看看会出现啥结果：

"我 爱 北京 天安门", "天安门 上 太阳 升"

为什么会得到这样的结果呢，仔细分析之后会发现英文默认是以空格分开的。其实就达到了一个分词的效果，所以我们要对中文进行分词处理

3.jieba分词处理

jieba.cut()

返回词语组成的生成器

需要安装下jieba库

pip3 install jieba

对我爱北京天安门进行分析：

def cut_word(text):
    """
    进行中文分词："我爱北京天安门" --> "我 爱 北京 天安门"
    :param text:
    :return:
    """
    return " ".join(list(jieba.cut(text)))

得到如下结果：

对以下三句话进行特征值化：

分析

准备句子，利用jieba.cut进行分词
实例化CountVectorizer
将分词结果变成字符串当作fit_transform的输入值

from sklearn.feature_extraction.text import CountVectorizer
import jieba

def cut_word(text):
    """
    对中文进行分词
    "我爱北京天安门"————>"我 爱 北京 天安门"
    :param text:
    :return: text
    """
    # 用结巴对中文字符串进行分词
    text = " ".join(list(jieba.cut(text)))

    return text

def text_chinese_count_demo2():
    """
    对中文进行特征抽取
    :return: None
    """
    data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
            "我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
            "如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]
    # 将原始数据转换成分好词的形式
    text_list = []
    for sent in data:
        text_list.append(cut_word(sent))
    print(text_list)

    # 1、实例化一个转换器类
    # transfer = CountVectorizer(sparse=False)
    transfer = CountVectorizer()
    # 2、调用fit_transform
    data = transfer.fit_transform(text_list)
    print("文本特征抽取的结果：\\n", data.toarray())
    print("返回特征名字：\\n", transfer.get_feature_names())

    return None

得到我们需要的结果：

但如果把这样的词语特征用于分类，会出现什么问题？
请看问题：

该如何处理某个词或短语在多篇文章中出现的次数高这种情况

4.Tf-idf文本特征提取

TF-IDF的主要思想是：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。
TF-IDF作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

4.1公式

词频（term frequency，tf）指的是某一个给定的词语在该文件中出现的频率
逆向文档频率（inverse document frequency，idf）是一个词语普遍重要性的度量。某一特定词语的idf，可以由总文件数目除以包含该词语之文件的数目，再将得到的商取以10为底的对数得到

最终得出结果可以理解为重要程度。
TF-IDF - 重要程度
两个词 “经济”，“非常”，1000篇文章-语料库，100篇文章 - "非常"，10篇文章，“经济”两篇文章
文章A(100词) : 10次“经济”
TF-IDF:0.2
tf:10/100 = 0.1
idf:lg 1000/10 = 2
文章B(100词) : 10次“非常” TF-IDF:0.1
tf:10/100 = 0.1
idf: log 10 1000/100 = 1

TF - 词频（term frequency，tf)
IDF - 逆向文档频率

def cut_word(text):
"""
对中文进行分词
"我爱北京天安门"————>"我爱北京天安门"
:param text:
:return: text
"""

用结巴对中文字符串进行分词

text = " ".join(list(jieba.cut(text)))

return text

def text_chinese_tfidf_demo():
"""
对中文进行特征抽取
:return: None
"""
data = ["一种还是一种今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。",
"我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。",
"如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。"]

将原始数据转换成分好词的形式

text_list = []
for sent in data:
    text_list.append(cut_word(sent))
print(text_list)

# 1、实例化一个转换器类
# transfer = CountVectorizer(sparse=False)
transfer = TfidfVectorizer(stop_words=[一种, 不会, 不要])
# 2、调用fit_transform
data = transfer.fit_transform(text_list)
print("文本特征抽取的结果：\\n", data.toarray())
print("返回特征名字：\\n", transfer.get_feature_names())

return None


**结果：**
![在这里插入图片描述](https://s2.51cto.com/images/blog/202208/28181016_630b3f0872cd882191.png?x-oss-process=image/watermark,size_14,text_QDUxQ1RP5Y2a5a6i,color_FFFFFF,t_30,g_se,x_10,y_10,shadow_20,type_ZmFuZ3poZW5naGVpdGk=)
**结果大的便可以体现出这个词比较重要。**

**Tf-idf的重要性**：
分类机器学习算法进行文章分类中前期数据处理方式

以上是关于文本特征提取的主要内容，如果未能解决你的问题，请参考以下文章

机器学习特征工程-＞特征提取

机器学习算法：特征工程-特征提取

[机器学习与scikit-learn-43]：特征工程-特征提取(编码)-2-什么是特征提取以及文本词频向量

机器学习特征提取

02_特征工程和文本特征提取

python —— 文本特征提取 CountVectorize