论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation》

一、摘要

最近,知识蒸馏(KD)在 BERT 压缩方面取得了巨大成功。研究人员发现 BERT 隐藏层中包含的丰富信息有利于学生的表现,而不是像传统 KD 那样只从教师的软标签中学习。为了更好地利用隐藏知识,一种常见的做法是强迫学​​生以分层的方式深度模仿老师所有令牌的隐藏状态。然而,在本文中,我们观察到虽然提炼教师的隐藏状态知识 (HSK) 是有帮助的,但随着提炼出更多的 HSK,性能增益(边际效用)会迅速减少。为了理解这种影响,我们进行了一系列分析。具体来说,我们将BERT的HSK分为深度、长度和宽度三个维度。我们首先研究各种策略来为每个单一维度提取关键知识,然后联合压缩三个维度。通过这种方式,我们表明 1) 学生的成绩可以通过提取和蒸馏关键的 HSK 来提高,2) 使用一小部分 HSK 可以达到与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。

二、结论

在这篇文章中,我们研究了在BERT KD中HSK的压缩。我们将BERT的HSK分成三个维度,并为每个维度探索一系列压缩策略。在此基础上,我们共同压缩三个维度,发现用很小一部分的HSK,学生就能达到与提炼全尺度知识相同甚至更好的表现。基于这一发现,我们提出了一种新的范式来提高BERT KD的训练效率,这种范式不需要在训练过程中加载教师模型。实验表明,对于两种学生模型和两种CPU和GPU设备,训练速度可提高2.7×3.4×4。

本研究中调查的大多数压缩策略都是启发式的,仍有改进的余地。因此,我们未来工作的一个方向可能是设计更先进的算法,在BERT KD中搜索最有用的HSK。此外,由于预训练阶段的HSK蒸馏比特定任务蒸馏耗时几个数量级,预训练蒸馏的边际效用递减效应也是一个值得研究的问题。

三、模型

Single-Dimension Knowledge Compression:
对模型剪枝的研究表明,模型中的结构单元具有不同的重要性水平,不重要的结构单元可以在不影响性能的情况下被删除。

具体感觉也看不明白,还是得对知识工程有进一步的了解深入才能更好地了解这篇文章,有关这个一维知识压缩,感觉是有点像主成分分析那味儿。

以上是关于论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识的主要内容,如果未能解决你的问题,请参考以下文章

论文泛读 知识蒸馏:Distilling the knowledge in a neural network

论文阅读_知识蒸馏_Distilling_BERT

bert 压缩优化方向的论文

微观经济学

论文泛读84使用BERT适配器的Lexicon增强中文序列标记

论文阅读_知识蒸馏_TinyBERT