使用 huggingface 的 distilbert 模型生成文本

Posted

技术标签:

【中文标题】使用 huggingface 的 distilbert 模型生成文本【英文标题】:Text generation using huggingface's distilbert models 【发布时间】:2020-04-02 01:43:35 【问题描述】:

我一直在为 huggingface 的 DistilBERT 模型苦苦挣扎,因为文档似乎很不清楚,而且他们的示例(例如 https://github.com/huggingface/transformers/blob/master/notebooks/Comparing-TF-and-PT-models-MLM-NSP.ipynb 和 https://github.com/huggingface/transformers/tree/master/examples/distillation)非常厚,而且他们展示的东西看起来不太好记录在案。

我想知道这里是否有人有任何经验并且知道一些很好的代码示例,用于他们模型的基本 in-python 使用。即:

如何将模型的输出正确解码为实际文本(无论我如何改变其形状,标记器似乎都愿意对其进行解码,并且总是产生一些 [UNK] 标记序列)

李>

如何实际使用他们的调度器+优化器来训练一个简单的文本到文本任务的模型。

【问题讨论】:

【参考方案1】:

要解码输出,您可以这样做

        prediction_as_text = tokenizer.decode(output_ids, skip_special_tokens=True)

output_ids 包含生成的令牌 ID。它也可以是一个批处理(每行输出 id),那么prediction_as_text 也将是一个包含每行文本的二维数组。 skip_special_tokens=True 过滤掉训练中使用的特殊标记,例如(句子结尾)、(句子开头)等。这些特殊标记当然因模型而异,但几乎每个模型都有在训练期间使用的特殊标记,并且推理。

没有一种简单的方法可以摆脱未知令牌[UNK]。这些模型的词汇量有限。如果模型遇到不在其词汇表中的子词,则将其替换为特殊的未知标记,并使用这些标记对模型进行训练。所以,它也学会了生成[UNK]。有多种方法可以处理它,例如将其替换为第二高概率的标记,或者使用波束搜索并获取不包含任何未知标记的最可能的句子。但是,如果您真的想摆脱这些,您应该使用使用字节对编码的模型。彻底解决了生词问题。正如您在此链接中所读到的,Bert 和 DistilBert 使用子工作标记化并有这样的限制。 https://huggingface.co/transformers/tokenizer_summary.html

要使用调度器和优化器,您应该使用类TrainerTrainingArguments。下面我发布了一个来自我自己的项目的示例。

    output_dir=model_directory,
    num_train_epochs=args.epochs,
    per_device_train_batch_size=args.batch_size,
    per_device_eval_batch_size=args.batch_size,
    warmup_steps=500,
    weight_decay=args.weight_decay,
    logging_dir=model_directory,
    logging_steps=100,
    do_eval=True,
    evaluation_strategy='epoch',
    learning_rate=args.learning_rate,
    load_best_model_at_end=True, # the last checkpoint is the best model wrt metric_for_best_model
    metric_for_best_model='eval_loss',
    lr_scheduler_type = 'linear'
    greater_is_better=False, 
    save_total_limit=args.epochs if args.save_total_limit == -1 else args.save_total_limit,

)

trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=val_dataset,
    optimizers=[torch.optim.Adam(params=model.parameters(), 
    lr=args.learning_rate), None], // optimizers
    tokenizer=tokenizer,
)

其他调度器类型见此链接:https://huggingface.co/transformers/main_classes/optimizer_schedules.html

【讨论】:

以上是关于使用 huggingface 的 distilbert 模型生成文本的主要内容,如果未能解决你的问题,请参考以下文章

将 AllenNLP 解释与 HuggingFace 模型一起使用

使用 HuggingFace 微调 ALBERT 问答

通过 Huggingface 转换器更新 BERT 模型

使用 Huggingface TFTrainer 类微调模型时如何指定损失函数?

使用 Huggingface 变形金刚的聊天机器人

KeyError:使用 Huggingface Transformers 使用 BioASQ 数据集时出现“答案”错误