NLP面试 Transformer101问答

Posted 2022-08-28 AI算法攻城狮

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP面试 Transformer101问答相关的知识，希望对你有一定的参考价值。

1，请阐述Transformer能够进行训练来表达和生成信息背后的数学假设，什么数学模型或者公式支持了Transformer模型的训练目标？请展示至少一个相关数学公式的具体推导过程。

2，Transformer中的可训练Queries、Keys和Values矩阵从哪儿来？

2，Transformer中为何会有Queries、Keys和Values矩阵，只设置Values矩阵本身来求Attention不是更简单吗？

3，Transformer的Feed Forward层在训练的时候到底在训练什么？

4，请具体分析一下Transformer的Embeddigns层、Attention层和Feedforward层的复杂度

5，Transformer的Positional Encoding是如何表达相对位置关系的，位置信息在不同的Encoder的之间传递会丢失吗？

6，Transformer中的Layer Normalization蕴含的神经网络的假设是什么？为何使用Layer Norm而不是Batch Norm？Transformer是否有其它更好的Normalization的实现？

独立同分布假设

7，Transformer中的神经网络为何能够很好的表示信息？

8，请从数据的角度分析Transformer中的Decoder和Encoder的依存关系

9，请描述Transformer中的Tokenization的数学原理、运行流程、问题及具体改进方法

10，请描述一下你认为的把self-attention复杂度从O(n2) 降低到 O(n)有效方案.

11，Bert的CLS能够有效的表达Sentence Embeddings吗？

以上是关于NLP面试 Transformer101问答的主要内容，如果未能解决你的问题，请参考以下文章