NLP面试 Transformer101问答

Posted AI算法攻城狮

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP面试 Transformer101问答相关的知识,希望对你有一定的参考价值。

1,请阐述Transformer能够进行训练来表达和生成信息背后的数学假设,什么数学模型或者公式支持了Transformer模型的训练目标?请展示至少一个相关数学公式的具体推导过程。

2,Transformer中的可训练Queries、Keys和Values矩阵从哪儿来?

2,Transformer中为何会有Queries、Keys和Values矩阵,只设置Values矩阵本身来求Attention不是更简单吗?

3,Transformer的Feed Forward层在训练的时候到底在训练什么?

4,请具体分析一下Transformer的Embeddigns层、Attention层和Feedforward层的复杂度

5,Transformer的Positional Encoding是如何表达相对位置关系的,位置信息在不同的Encoder的之间传递会丢失吗?

6,Transformer中的Layer Normalization蕴含的神经网络的假设是什么?为何使用Layer Norm而不是Batch Norm?Transformer是否有其它更好的Normalization的实现?

独立同分布假设

7,Transformer中的神经网络为何能够很好的表示信息?

8,请从数据的角度分析Transformer中的Decoder和Encoder的依存关系

9,请描述Transformer中的Tokenization的数学原理、运行流程、问题及具体改进方法

10,请描述一下你认为的把self-attention复杂度从O(n2) 降低到 O(n)有效方案.

11,Bert的CLS能够有效的表达Sentence Embeddings吗?

以上是关于NLP面试 Transformer101问答的主要内容,如果未能解决你的问题,请参考以下文章

史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案

NLP预训练语言模型(三):逐步解析Transformer结构

NLP(task1)Transformers在NLP中的兴起 + 环境配置

NLP:Transformer的简介(优缺点)架构详解之详细攻略

NLP系列_Transformer详解

NLP系列_Transformer详解