如何更改拥抱脸转换器的默认缓存目录

Posted

技术标签:

【中文标题】如何更改拥抱脸转换器的默认缓存目录【英文标题】:How to change huggingface transformers default cache directory 【发布时间】:2020-11-28 10:39:49 【问题描述】:

默认缓存目录是磁盘容量不足,我需要更改默认缓存目录的配置。

【问题讨论】:

【参考方案1】:

您可以通过设置参数cache_dir,在每次使用.from_pretrained 加载模型时指定缓存目录。您可以通过在每次使用之前(即导入它!)库之前导出环境变量 TRANSFORMERS_CACHE 来定义默认位置。

python 示例:

import os
os.environ['TRANSFORMERS_CACHE'] = '/blabla/cache/'

bash 示例:

export TRANSFORMERS_CACHE=/blabla/cache/

【讨论】:

“导入模块之前”为我保存了一个使用 flair 的相关问题,提示我在更改 huggingface 缓存 env 变量后导入 flair。 另外,数据集缓存的环境变量是HF_HOME。 github.com/huggingface/transformers/issues/8703【参考方案2】:

正如@cronoik 提到的,替代在终端中修改缓存路径,您可以直接在代码中修改缓存目录。如果您在 HuggingFace 上查找有任何困难,我只会为您提供实际代码:

tokenizer = AutoTokenizer.from_pretrained("roberta-base", cache_dir="new_cache_dir/")

model = AutoModelForMaskedLM.from_pretrained("roberta-base", cache_dir="new_cache_dir/")

【讨论】:

以上是关于如何更改拥抱脸转换器的默认缓存目录的主要内容,如果未能解决你的问题,请参考以下文章

无法为拥抱脸变压器库安装 tensorflow

如何从拥抱脸下载模型?

如何冻结拥抱脸模型?

训练后如何查看拥抱脸模型的变化?

如何在拥抱脸模型中获得令牌的概率分布?

如何从拥抱脸应用预训练的变压器模型?