《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

Posted shiter

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强相关的知识,希望对你有一定的参考价值。

文章大纲


回译技术

所谓回译,就是将一种语言的语料翻译为另一种语言,然后再翻译回来的方法。对回译回来的文本,检查其是否与源文档相同,完全相同的话可以抛弃,否则留用。

这种方法在增强文本相似数据集时很有用,尤其是从无到有的构建文本相似数据集。

优点:回译之后的文本在语法结构、选词用词等方面进行了丰富的变换,目前的翻译技术比较成熟,可以提供较高质量的增强数据。

回译,又称为“还原翻译”或“反向翻译”,英文叫Back Translation。意思就是把A语言翻译成B语言,然后在脱离A语言影响的基础上,再把B语言“往回”翻译成A语言,一般用于校对和检查。举个例子便于理解:

源语言: The patient is a senior in local high school.

目标语言: 患者是一名本地高中的高四学生。

回译: The patient is in his fourth year of local high school.

这里通过对比回译和源语言,发现目标语言的“高四”显然不适合国内语境,因为中国的三年高中学制和北美的四年是不一样的,进而可以

以上是关于《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强的主要内容,如果未能解决你的问题,请参考以下文章

《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强

《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类

《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类

《自然语言处理实战入门》 ---- NLP方向:面试笔试题集

《自然语言处理实战入门》 文本检索 ---- ElasticSearch 概念与操作

《自然语言处理实战入门》 文本检索 ---- 文本查询实例:ElasticSearch 配置ik 分词器及使用