AutoTokenizer.from_pretrained 无法加载本地保存的预训练标记器 (PyTorch)
Posted
技术标签:
【中文标题】AutoTokenizer.from_pretrained 无法加载本地保存的预训练标记器 (PyTorch)【英文标题】:AutoTokenizer.from_pretrained fails to load locally saved pretrained tokenizer (PyTorch) 【发布时间】:2020-10-09 19:47:02 【问题描述】:我是 PyTorch 的新手,最近我一直在尝试使用 Transformers。我正在使用 HuggingFace 提供的预训练标记器。
我已成功下载并运行它们。但是,如果我尝试保存它们并再次加载,则会发生一些错误。 如果我使用AutoTokenizer.from_pretrained
下载分词器,那么它可以工作。
[1]: tokenizer = AutoTokenizer.from_pretrained('distilroberta-base')
text = "Hello there"
enc = tokenizer.encode_plus(text)
enc.keys()
Out[1]: dict_keys(['input_ids', 'attention_mask'])
但如果我使用tokenizer.save_pretrained("distilroberta-tokenizer")
保存它并尝试在本地加载它,那么它会失败。
[2]: tmp = AutoTokenizer.from_pretrained('distilroberta-tokenizer')
---------------------------------------------------------------------------
OSError Traceback (most recent call last)
/opt/conda/lib/python3.7/site-packages/transformers/configuration_utils.py in get_config_dict(cls, pretrained_model_name_or_path, **kwargs)
238 resume_download=resume_download,
--> 239 local_files_only=local_files_only,
240 )
/opt/conda/lib/python3.7/site-packages/transformers/file_utils.py in cached_path(url_or_filename, cache_dir, force_download, proxies, resume_download, user_agent, extract_compressed_file, force_extract, local_files_only)
266 # File, but it doesn't exist.
--> 267 raise EnvironmentError("file not found".format(url_or_filename))
268 else:
OSError: file distilroberta-tokenizer/config.json not found
During handling of the above exception, another exception occurred:
OSError Traceback (most recent call last)
<ipython-input-25-3bd2f7a79271> in <module>
----> 1 tmp = AutoTokenizer.from_pretrained("distilroberta-tokenizer")
/opt/conda/lib/python3.7/site-packages/transformers/tokenization_auto.py in from_pretrained(cls, pretrained_model_name_or_path, *inputs, **kwargs)
193 config = kwargs.pop("config", None)
194 if not isinstance(config, PretrainedConfig):
--> 195 config = AutoConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)
196
197 if "bert-base-japanese" in pretrained_model_name_or_path:
/opt/conda/lib/python3.7/site-packages/transformers/configuration_auto.py in from_pretrained(cls, pretrained_model_name_or_path, **kwargs)
194
195 """
--> 196 config_dict, _ = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
197
198 if "model_type" in config_dict:
/opt/conda/lib/python3.7/site-packages/transformers/configuration_utils.py in get_config_dict(cls, pretrained_model_name_or_path, **kwargs)
250 f"- or 'pretrained_model_name_or_path' is the correct path to a directory containing a CONFIG_NAME file\n\n"
251 )
--> 252 raise EnvironmentError(msg)
253
254 except json.JSONDecodeError:
OSError: Can't load config for 'distilroberta-tokenizer'. Make sure that:
- 'distilroberta-tokenizer' is a correct model identifier listed on 'https://huggingface.co/models'
- or 'distilroberta-tokenizer' is the correct path to a directory containing a config.json file
目录中缺少“config.josn”字样。在检查目录时,我得到了这些文件的列表:
[3]: !ls distilroberta-tokenizer
Out[3]: merges.txt special_tokens_map.json tokenizer_config.json vocab.json
我知道这个问题之前已经发布过,但似乎都没有问题。我也尝试关注docs,但仍然无法正常工作。 任何帮助将不胜感激。
【问题讨论】:
【参考方案1】:我在下面列出的代码中发现了几个问题:
distilroberta-tokenizer 是一个包含词汇配置等文件的目录。请务必先创建此目录。
如果此目录包含 config.json 而不是 tokenizer_config.json,则使用 AutoTokenizer 有效。所以,请重命名这个文件。
我在下面修改了你的代码,它可以工作了。
dir_name = "distilroberta-tokenizer"
if os.path.isdir(dir_name) == False:
os.mkdir(dir_name)
tokenizer.save_pretrained(dir_name)
#Rename config file now
#tmp = AutoTokenizer.from_pretrained(dir_name)
我希望这会有所帮助!
谢谢!
【讨论】:
【参考方案2】:目前有一个issue 正在调查中,它只影响 AutoTokenizer,但不影响底层的分词器,如 (RobertaTokenizer)。例如以下应该工作:
from transformers import RobertaTokenizer
tokenizer = RobertaTokenizer.from_pretrained('YOURPATH')
要使用 AutoTokenizer,您还需要保存配置以离线加载:
from transformers import AutoTokenizer, AutoConfig
tokenizer = AutoTokenizer.from_pretrained('distilroberta-base')
config = AutoConfig.from_pretrained('distilroberta-base')
tokenizer.save_pretrained('YOURPATH')
config.save_pretrained('YOURPATH')
tokenizer = AutoTokenizer.from_pretrained('YOURPATH')
我建议或者为标记器和模型使用不同的路径或来保留模型的 config.json,因为您应用到模型的一些修改会存储在model.save_pretrained()
期间创建的 config.json 中,并且将在您保存模型后如上所述的标记器时被覆盖(即您将无法使用标记器 config.json 加载修改后的模型)。
【讨论】:
这行得通,但我还有一个问题。使用 tokenizer_obj.save_pretrianed("path") 时,在日志中显示它保存了五个文件。 1. tokenizer_config.json, 2. special_tokens_map.json, 3. vocab.txt, 4. added_tokens.json, 5. tokenizer.json。但是,该位置缺少 added_token.json。如果你能指点我某个地方找到关于标记器的 save_pretrained() 的任何文档,我只能找到模型。 这是文档的link。 added_tokens.json 仅在您手动添加令牌时保存。我假设他们没有检查他们在做什么,只是打印可以创建的文件。 @SrikarManthatti以上是关于AutoTokenizer.from_pretrained 无法加载本地保存的预训练标记器 (PyTorch)的主要内容,如果未能解决你的问题,请参考以下文章