【NLP】BERT常见问题汇总

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了【NLP】BERT常见问题汇总相关的知识,希望对你有一定的参考价值。

参考技术A

bert结构大体上可分为 输入 N层transformer的encoder 输出 三部分组成。
输入 由 token embedding 、 segment embedding 和 position embedding 三部分相加组成;
N层transformer的encoder ,在bert_base中N=12,bert_large中N=24
输出 有 model.get_sequence_out() 和 model.get_pooling_out() 两种输出,其shape分别为[batch_size, seq_length, hidden_size]和[batch_size, hidden_size]。
model.get_sequence_out() 输出主要用于特征提取再处理的序列任务,而 model.get_pooling_out() 输出可直接接softmax进行分类(当然需要外加一层dense层将hidden_size转换为num_tag)。

bert适合于自然语言理解(Natural language Understanding, NLU)类任务,如文本分类、信息抽取等;
bert不适合于自然语言生成(Natural language Generation, NLG)类任务。

因为bert采用的是双向的语言模型,除了被mask的词语外,该词语前后的词语都可以看到。
而NLG任务的目标是在已知当前词与之前词语的情况下,预测出下一个词语,直至所有词语预测完成。

以上是关于【NLP】BERT常见问题汇总的主要内容,如果未能解决你的问题,请参考以下文章

迁移学习花式Finetune方法大汇总

论文泛读167使用 BERT 语言模型的大规模新闻分类:Spark NLP 方法

论文泛读167使用 BERT 语言模型的大规模新闻分类:Spark NLP 方法

NLP知识点汇总

论文泛读126BERT 句子表示的自引导对比学习

世界人工智能大赛方案汇总(nlp,cv)