GPT2-XL预训练模型的训练数据大小

Posted

技术标签:

【中文标题】GPT2-XL预训练模型的训练数据大小【英文标题】:Size of the training data of GPT2-XL pre-trained model 【发布时间】:2020-05-27 03:26:07 【问题描述】:

在huggingface transformer 中,可以使用预训练的 GPT2-XL 语言模型。但我没有找到,它是在哪个数据集上训练的?与 OpenAI 用于他们的 paper 的训练模型相同(在名为 webtext 的 40GB 数据集上训练)?

【问题讨论】:

【参考方案1】:

GPT2-XL 模型是您链接的论文中详述的四种架构中最大的一种(1542M 参数)。它使用与其他三个相同的数据进行训练,也就是您提到的 WebText。

【讨论】:

以上是关于GPT2-XL预训练模型的训练数据大小的主要内容,如果未能解决你的问题,请参考以下文章

如何获得 Hugging Face 预训练模型的大小?

gensim doc2vec 从预训练模型中训练更多文档

BERT:深度双向预训练语言模型

XLM 预训练模型的使用

具有更大输入图像尺寸的 Caffe 预训练模型

动手学pytorch-词嵌入预训练模型Glove