论文泛读147ChineseBERT:通过字形和拼音信息增强的中文预训练

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读147ChineseBERT:通过字形和拼音信息增强的中文预训练相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》

一、摘要

最近的中文预训练模型忽略了中文特有的两个重要方面:字形和拼音,它们为语言理解携带重要的句法和语义信息。在这项工作中,我们提出了 ChineseBERT,它将汉字的 {\\it glyph} 和 {\\it pinyin} 信息合并到语言模型预训练中。字形嵌入是基于汉字的不同字体获得的,能够从视觉特征中捕捉字符语义,拼音嵌入表征汉字的发音,处理了汉语中非常普遍的异音现象(同一个字有不同的读音,不同的意思)。在大规模无标签中文语料上进行预训练,与基线模型相比,提出的 ChineseBERT 模型在训练步骤较少的情况下产生了显着的性能提升。porpsoed 模型在广泛的中文 NLP 任务上实现了新的 SOTA 性能,包括机器阅读理解、自然语言推理、文本分类、句子对匹配和命名实体识别中的竞争性能。代码和预训练模型:Github

二、结论

本文介绍了一个大规模预处理的中文自然语言处理模型——ChineseBERT模型。它利用汉字的字形和拼音信息来增强模型从表面字符形式中获取上下文语义和消除汉语中多音字歧义的能力。所提出的ChineseBERT模型在广泛的中文自然语言处理任务中取得了显著的性能提升。所提出的ChineseBERT模型在训练数据较少的情况下比普通的预训练模型表现更好,表明所引入的字形嵌入和拼音嵌入为汉语语义建模提供了一种强正则化手段。未来的工作包括训练一个大尺寸的ChineseBERT。

三、model

字符嵌入、字形嵌入和拼音嵌入。这三个嵌入首先被连接,然后通过一个完全连接的层映射到一个D维嵌入,形成融合嵌入。
在这里插入图片描述
字形嵌入模型:
在这里插入图片描述
拼音嵌入模型:
在这里插入图片描述

融合层模型:
在这里插入图片描述

以上是关于论文泛读147ChineseBERT:通过字形和拼音信息增强的中文预训练的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读147ELMo 上下文嵌入的跨语言对齐

论文泛读178通过对比对抗训练改进文本分类

论文泛读178通过对比对抗训练改进文本分类

论文泛读99通过词典自动构建Sememe知识库

论文泛读80通过滚动交互预测文本可读性

论文泛读198通过输入空间转换利用 BERT 进行多模态目标情感分类