《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
Posted shiter
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强相关的知识,希望对你有一定的参考价值。
文章大纲
回译技术
所谓回译,就是将一种语言的语料翻译为另一种语言,然后再翻译回来的方法。对回译回来的文本,检查其是否与源文档相同,完全相同的话可以抛弃,否则留用。
这种方法在增强文本相似数据集时很有用,尤其是从无到有的构建文本相似数据集。
优点:回译之后的文本在语法结构、选词用词等方面进行了丰富的变换,目前的翻译技术比较成熟,可以提供较高质量的增强数据。
回译,又称为“还原翻译”或“反向翻译”,英文叫Back Translation。意思就是把A语言翻译成B语言,然后在脱离A语言影响的基础上,再把B语言“往回”翻译成A语言,一般用于校对和检查。举个例子便于理解:
源语言: The patient is a senior in local high school.
目标语言: 患者是一名本地高中的高四学生。
回译: The patient is in his fourth year of local high school.
这里通过对比回译和源语言,发现目标语言的“高四”显然不适合国内语境,因为中国的三年高中学制和北美的四年是不一样的,进而可以
以上是关于《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强的主要内容,如果未能解决你的问题,请参考以下文章
《自然语言处理实战入门》---- 文本样本扩展小技巧:使用回译技术进行样本增强
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
《自然语言处理实战入门》文本分类 ---- 使用TextRNN 进行文本分类
《自然语言处理实战入门》 ---- NLP方向:面试笔试题集