BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Posted mata123

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding相关的知识,希望对你有一定的参考价值。

摘要:

提出了一个新的语言表示模型(language representation), BERT: Bidirectional Encoder Representations from Transformers。不同于以往提出的语言表示模型,它在每一层的每个位置都能利用其左右两侧的信息用于学习,因此,它具有强大的表示能力,所以,BERT在预训练之后,只需要加一个简单的输出层,并在新结构上fine-tuned 就能获得 SOTA的结果。

引言

语言模型预训练在自然语言处理任务中占据着越来越重要的位置。当前有两种方法将预训练的特征表示用于具体的任务,分别是:1. feature based. 2. fine-tuning

以上是关于BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding的主要内容,如果未能解决你的问题,请参考以下文章

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

对 BERT- Pre-training of Deep Bidirectional Transformers for Language Understanding 的理解

paper 阅读 - BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

paper 阅读 - BERT: Pre-training of Deep Bidirectional Transformers forLanguage Understanding

BERT模型

BERT源码分析PART II