NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>

Posted 我是小白呀

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>相关的知识,希望对你有一定的参考价值。

【NLP】⚠️学不会打我! 半小时学会基本操作 14⚠️ 文本处理

概述

从今天开始我们将开启一段自然语言处理 (NLP) 的旅程. 自然语言处理可以让来处理, 理解, 以及运用人类的语言, 实现机器语言和人类语言之间的沟通桥梁.

文本处理

我们在进行文本处理的时候, 经常会遇到句子长度不一致, 遇到奇奇怪怪的符号等问题. 这时候我们就需要特殊字符来帮助我们解决这些问题.

<PAD>可以帮助我们填充句子长度不足的部分. 在我们 NLP 训练的过程中, 我们会将数据按 Batch 输入, 但是这些 Batch 必须拥有相同的长度.

<UNK>可以帮助我们替换词汇表里不存在的字符, 例如一些低频词, 或者低频字, 或者特殊符号.

<GO>会放在句子的开头, 用于告诉模型这是句子输入的开始, 即第一个时间步长的输入.

<EOS>会放在句子的结尾, 用于告诉模型这是句子输入的结束.

以上是关于NLP学不会打我 半小时学会基本操作 14 文本处理 <PAD><EOS><UNK><GO>的主要内容,如果未能解决你的问题,请参考以下文章

NLP⚠️学不会打我! 半小时学会基本操作 3⚠️ 词袋模型

NLP⚠️学不会打我! 半小时学会基本操作 7⚠️ Word2vec 电影影评建模

NLP⚠️学不会打我! 半小时学会基本操作 7⚠️ Word2vec 电影影评建模

NLP学不会打我 半小时学会基本操作 13 孪生网络

NLP学不会打我 半小时学会基本操作 12 命名实例提取

NLP⚠️学不会打我! 半小时学会基本操作 8⚠️ 新闻分类