NLP初识:文本预处理

Posted ZSYL

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP初识:文本预处理相关的知识,希望对你有一定的参考价值。

1. 文本预处理及其作用


文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求,

: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

2. 文本预处理中包含的主要环节

  • 文本处理的基本方法
  • 文本张量表示方法
  • 文本语料的数据分析
  • 文本特征处理
  • 数据增强方法

2.1 文本处理的基本方法

  • 分词
  • 词性标注
  • 命名实体识别

2.2 文本张量表示方法

  • one-hot编码
  • Word2vec
  • Word Embedding

2.3 文本语料的数据分析

  • 标签数量分布
  • 句子长度分布
  • 词频统计与关键词词云

2.4 文本特征处理

  • 添加n-gram特征
  • 文本长度规范

2.5 数据增强方法

  • 回译数据增强法

重要说明:

在实际生产应用中, 我们最常使用的两种语言是中文英文, 因此, 文本预处理部分的内容都将针对这两种语言进行讲解.

加油!

感谢!

努力!

以上是关于NLP初识:文本预处理的主要内容,如果未能解决你的问题,请参考以下文章

NLP——天池新闻文本分类 Task1

nlp中文本预处理技术

NLP 文本预处理

NLP文本特征处理&文本数据增强

初识Attention机制(NLP领域)

自然语言处理(NLP)基于PaddleHub的文本审核