论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识
Posted 及时行樂_
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识相关的知识,希望对你有一定的参考价值。
贴一下汇总贴:论文阅读记录
论文链接:《Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation》
一、摘要
最近,知识蒸馏(KD)在 BERT 压缩方面取得了巨大成功。研究人员发现 BERT 隐藏层中包含的丰富信息有利于学生的表现,而不是像传统 KD 那样只从教师的软标签中学习。为了更好地利用隐藏知识,一种常见的做法是强迫学生以分层的方式深度模仿老师所有令牌的隐藏状态。然而,在本文中,我们观察到虽然提炼教师的隐藏状态知识 (HSK) 是有帮助的,但随着提炼出更多的 HSK,性能增益(边际效用)会迅速减少。为了理解这种影响,我们进行了一系列分析。具体来说,我们将BERT的HSK分为深度、长度和宽度三个维度。我们首先研究各种策略来为每个单一维度提取关键知识,然后联合压缩三个维度。通过这种方式,我们表明 1) 学生的成绩可以通过提取和蒸馏关键的 HSK 来提高,2) 使用一小部分 HSK 可以达到与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。可以通过提取和蒸馏关键的 HSK 来提高性能,并且 2) 使用一小部分 HSK 可以获得与广泛的 HSK 蒸馏相同的性能。基于第二个发现,我们进一步提出了一种有效的 KD 范式来压缩 BERT,它不需要在学生训练期间加载教师。对于两种学生模型和计算设备,所提出的 KD 范式使训练速度提高了 2.7 倍-3.4 倍。
二、结论
在这篇文章中,我们研究了在BERT KD中HSK的压缩。我们将BERT的HSK分成三个维度,并为每个维度探索一系列压缩策略。在此基础上,我们共同压缩三个维度,发现用很小一部分的HSK,学生就能达到与提炼全尺度知识相同甚至更好的表现。基于这一发现,我们提出了一种新的范式来提高BERT KD的训练效率,这种范式不需要在训练过程中加载教师模型。实验表明,对于两种学生模型和两种CPU和GPU设备,训练速度可提高2.7×3.4×4。
本研究中调查的大多数压缩策略都是启发式的,仍有改进的余地。因此,我们未来工作的一个方向可能是设计更先进的算法,在BERT KD中搜索最有用的HSK。此外,由于预训练阶段的HSK蒸馏比特定任务蒸馏耗时几个数量级,预训练蒸馏的边际效用递减效应也是一个值得研究的问题。
三、模型
Single-Dimension Knowledge Compression:
对模型剪枝的研究表明,模型中的结构单元具有不同的重要性水平,不重要的结构单元可以在不影响性能的情况下被删除。
具体感觉也看不明白,还是得对知识工程有进一步的了解深入才能更好地了解这篇文章,有关这个一维知识压缩,感觉是有点像主成分分析那味儿。
以上是关于论文泛读121边际效用递减:探索BERT知识蒸馏的最小知识的主要内容,如果未能解决你的问题,请参考以下文章
论文泛读 知识蒸馏:Distilling the knowledge in a neural network