如何使用 Megatron-LM 训练语言模型

Posted Hugging Face 博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何使用 Megatron-LM 训练语言模型相关的知识,希望对你有一定的参考价值。

在 PyTorch 中训练大语言模型不仅仅是写一个训练循环这么简单。我们通常需要将模型分布在多个设备上,并使用许多优化技术以实现稳定高效的训练。Hugging Face

微调后如何使用语言模型进行预测?

【中文标题】微调后如何使用语言模型进行预测?【英文标题】:How to use a language model for prediction after fine-tuning? 【发布时间】:2021-11-21 07:13:05 【问题描述】:

我已经训练/微调了一个 Spanish RoBERTa 模型,该模型最近已针对除文本分类之外的各种 NLP 任务进行了预训练。

由于基线模型似乎很有希望,我想针对不同的任务对其进行微调:文本分类,更准确地说,是西班牙推文的情感分析,并使用它来预测我拥有的已抓取推文上的标签。

预处理和训练似乎工作正常。但是,我不知道以后如何使用此模式进行预测。

我将省略预处理部分,因为我认为这似乎没有问题。

代码:

# Training with native TensorFlow 
from transformers import TFAutoModelForSequenceClassification

## Model Definition
model = TFAutoModelForSequenceClassification.from_pretrained("BSC-TeMU/roberta-base-bne", from_pt=True, num_labels=3)

## Model Compilation
optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True)
metric = tf.metrics.SparseCategoricalAccuracy()
model.compile(optimizer=optimizer, 
              loss=loss,
              metrics=metric) 

## Fitting the data 
history = model.fit(train_dataset.shuffle(1000).batch(64), epochs=3, batch_size=64)

输出:

/usr/local/lib/python3.7/dist-packages/transformers/configuration_utils.py:337: UserWarning: Passing `gradient_checkpointing` to a config initialization is deprecated and will be removed in v5 Transformers. Using `model.gradient_checkpointing_enable()` instead, or if you are using the `Trainer` API, pass `gradient_checkpointing=True` in your `TrainingArguments`.
  "Passing `gradient_checkpointing` to a config initialization is deprecated and will be removed in v5 "
Some weights of the PyTorch model were not used when initializing the TF 2.0 model TFRobertaForSequenceClassification: ['roberta.embeddings.position_ids']
- This IS expected if you are initializing TFRobertaForSequenceClassification from a PyTorch model trained on another task or with another architecture (e.g. initializing a TFBertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing TFRobertaForSequenceClassification from a PyTorch model that you expect to be exactly identical (e.g. initializing a TFBertForSequenceClassification model from a BertForSequenceClassification model).
Some weights or buffers of the TF 2.0 model TFRobertaForSequenceClassification were not initialized from the PyTorch model and are newly initialized: ['classifier.dense.weight', 'classifier.dense.bias', 'classifier.out_proj.weight', 'classifier.out_proj.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Epoch 1/5
16/16 [==============================] - 35s 1s/step - loss: 1.0455 - sparse_categorical_accuracy: 0.4452
Epoch 2/5
16/16 [==============================] - 18s 1s/step - loss: 0.6923 - sparse_categorical_accuracy: 0.7206
Epoch 3/5
16/16 [==============================] - 18s 1s/step - loss: 0.3533 - sparse_categorical_accuracy: 0.8885
Epoch 4/5
16/16 [==============================] - 18s 1s/step - loss: 0.1871 - sparse_categorical_accuracy: 0.9477
Epoch 5/5
16/16 [==============================] - 18s 1s/step - loss: 0.1031 - sparse_categorical_accuracy: 0.9714

问题:

如何使用微调后的模型进行文本分类/情感分析? (我想为我抓取的每条推文创建一个预测标签。) 解决这个问题的好方法是什么?

我已尝试保存模型,但不知道在哪里可以找到并使用:

# Save the model
model.save_pretrained('Twitter_Roberta_Model')

我还尝试将其添加到 HuggingFace 管道中,如下所示。但我不确定这是否正常工作。

classifier = pipeline('sentiment-analysis', 
model=model, 
tokenizer=AutoTokenizer.from_pretrained("BSC-TeMU/roberta-base-bne"))

【问题讨论】:

【参考方案1】:

虽然这是特定模型 (DistilBert) 的示例,但以下预测代码应该类似地工作(根据您的需要进行小修改)。您只需要根据您的模型 (TFAutoModelForSequenceClassification) 替换 distillbert,当然还要确保使用正确的分词器。

    loaded_model = TFDistilBertForSequenceClassification.from_pretrained('distilbert-base-uncased')
    loaded_model.load_weights('./distillbert_tf.h5')
    input_text = "The text on which I test"
    input_text_tokenized = tokenizer.encode(input_text,
                                            truncation=True,
                                            padding=True,
                                            return_tensors="tf")
    prediction = loaded_model(input_text_tokenized)
    prediction_logits = prediction[0]
    prediction_probs = tf.nn.softmax(prediction_logits,axis=1).numpy()
    print(f'The prediction probs are: prediction_probs')

【讨论】:

我从未使用过拥抱脸管道,因此在这方面我无法帮助您/目前不知道有效的响应。是的,如果您训练了模型并且不想加载它,您当然可以对您的模型执行此操作,只需确保使用正确的标记器。 我刚刚试过你的代码,它似乎运行良好。谢谢!你会碰巧知道我如何也可以显示标签吗?例如。以字典的形式。在我的情况下,标签恰好是整数,但无论如何,能够显示它们会很棒。 如果您知道标签 0 是正数而 1 是负数,那么您可以在 prediction_probs 上使用 tf.argmax/np.argmax(),如果 argmax() 的结果为 0,则打印'negative',如果结果是 1,你可以打印 'positive' 一旦获得 argmax() -> label 0 或 1 的结果作为预测,您可以根据需要创建字典/其他结构。 再次感谢。仅供参考,我使用这两种方法得到了相同的结果,即 Huggingface 管道和您的代码。

以上是关于如何使用 Megatron-LM 训练语言模型的主要内容,如果未能解决你的问题,请参考以下文章

BERT:深度双向预训练语言模型

使用 LoRA 和 Hugging Face 高效训练大语言模型

微调后如何使用语言模型进行预测?

微调后如何使用语言模型进行预测?

8.4 bert的压缩讲解 意境级

赠书如何掌握好自然语言处理中的预训练语言模型?你需要读这本书