NLP面试 Transformer101问答
Posted AI算法攻城狮
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP面试 Transformer101问答相关的知识,希望对你有一定的参考价值。
1,请阐述Transformer能够进行训练来表达和生成信息背后的数学假设,什么数学模型或者公式支持了Transformer模型的训练目标?请展示至少一个相关数学公式的具体推导过程。
2,Transformer中的可训练Queries、Keys和Values矩阵从哪儿来?
2,Transformer中为何会有Queries、Keys和Values矩阵,只设置Values矩阵本身来求Attention不是更简单吗?
3,Transformer的Feed Forward层在训练的时候到底在训练什么?
4,请具体分析一下Transformer的Embeddigns层、Attention层和Feedforward层的复杂度
5,Transformer的Positional Encoding是如何表达相对位置关系的,位置信息在不同的Encoder的之间传递会丢失吗?
6,Transformer中的Layer Normalization蕴含的神经网络的假设是什么?为何使用Layer Norm而不是Batch Norm?Transformer是否有其它更好的Normalization的实现?
独立同分布假设
7,Transformer中的神经网络为何能够很好的表示信息?
8,请从数据的角度分析Transformer中的Decoder和Encoder的依存关系
9,请描述Transformer中的Tokenization的数学原理、运行流程、问题及具体改进方法
10,请描述一下你认为的把self-attention复杂度从O(n2) 降低到 O(n)有效方案.
11,Bert的CLS能够有效的表达Sentence Embeddings吗?
以上是关于NLP面试 Transformer101问答的主要内容,如果未能解决你的问题,请参考以下文章
史上最细节的自然语言处理NLP/Transformer/BERT/Attention面试问题与答案