文本预处理

Posted yu212223

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本预处理相关的知识,希望对你有一定的参考价值。

文本预处理

文本是一类序列数据,一篇文章可以看作是字符或单词的序列,本节将介绍文本数据的常见预处理步骤,预处理通常包括四个步骤:

  1. 读入文本
    可以直接利用open读入文本
  2. 分词
    对每个句子进行分词,也就是将一个句子划分成若干个词(token),转换为一个词的序列
    分词的时候很多时候需要一份停用词表
  3. 建立字典,将每个词映射到一个唯一的索引(index)
    为了方便模型处理,我们需要将字符串转换为数字。因此我们需要先构建一个字典(vocabulary),将每个词映射到一个唯一的索引编号。
    在模型处理的时候输入一般就是索引组成的序列
    现有的分词工具有spaCy和NLTK等,中文分词jieba
  4. 将文本从词的序列转换为索引的序列,方便输入模型

以上是关于文本预处理的主要内容,如果未能解决你的问题,请参考以下文章

文本聚类——文本预处理

英文文本挖掘预处理流程总结

中文文本挖掘预处理流程总结

Keras 数据预处理文本转换为向量&文本预处理(超详解)

文本预处理

文本挖掘预处理之TF-IDF