如何冻结拥抱脸模型?

Posted

技术标签:

【中文标题】如何冻结拥抱脸模型?【英文标题】:How to freeze a huggingface model? 【发布时间】:2022-01-17 23:56:55 【问题描述】:

我用

        for p in model.parameters():
            p.requires_grad = False

冻结一个 T5 模型(t5-small),但是当我打印需要 grad 的参数时,仍然有一个大小为32121x512 的参数。这是什么?是嵌入矩阵吗?我也应该冷冻它吗?似乎向后梯度会影响这个剩余的参数

【问题讨论】:

【参考方案1】:

看来我在冻结参数后调用了model.resize_token_embeddings(len(tokenizer)),它可以将嵌入的require_grad重置为True

【讨论】:

以上是关于如何冻结拥抱脸模型?的主要内容,如果未能解决你的问题,请参考以下文章

如何从拥抱脸应用预训练的变压器模型?

训练后如何查看拥抱脸模型的变化?

如何运行拥抱脸赫尔辛基 NLP 模型

如何在拥抱脸模型中获得令牌的概率分布?

如何从拥抱脸使用 deberta 模型并使用 .compile() 和 . summary() 用它

如何将拥抱脸模型用于 NLP音频分类和计算机视觉