从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型

Posted 2023-03-04 Alexxinlu

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型相关的知识，希望对你有一定的参考价值。

目录

AI21 Labs
Alibaba
Allen Institute for AI
Amazon
Anthropic
BAAI
Baidu
BigScience
Cohere
DeepMind
EleutherAI
Google
Huggingface
iFLYTEK
Meta
Microsoft
NVidia
OpenAI
Salesforce
Tsinghua University
UC Berkeley
Yandex
持续更新中 ...
参考

团队博客: CSDN AI小组

先上 “万恶之源”：Transformer

按机构分类

AI21 Labs

发布时间	模型名称	参数量	机构	相关链接	开源
2021-09	Jurassic-1 (J1)	J1-Jumbo v1 (178B) J1-Large v1 (7.5B) J1-Grande v1 (17B)	AI21 Labs	论文官方文档技术报告	受限

Alibaba

发布时间	模型名称	参数量	机构	相关链接	开源
2019-08	StructBert	structbert.en.large(340M) structroberta.en.large(355M) structbert.ch.large(330M)	Alibaba Group Inc.	论文 GitHub	模型

Allen Institute for AI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-02	ELMo	Small(13.6M) Medium(28.0M) Original(93.6M)	Allen Institute for AI	论文	模型

Amazon

发布时间	模型名称	参数量	机构	相关链接	开源
2022-03	DQ-BART	与标准BART相比，参数减少了30倍	Amazon	论文

Anthropic

发布时间	模型名称	参数量	机构	相关链接	开源
2021-12	Anthropic-LM	Anthropic-LM v4-s3 (52B)	Anthropic	论文1 论文2	未开源

BAAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Wu Dao 2.0	1.75T	BAAI	官网	模型

Baidu

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	ERNIE	114M	Baidu	GitHub 论文	模型

BigScience

发布时间	模型名称	参数量	机构	相关链接	开源
2022-05	T0pp	11B	BigScience	论文	模型
2022-07	BLOOM	176B	BigScience	论文	模型
2022-11	BLOOMZ	176B	BigScience	论文	模型

Cohere

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	Cohere	Cohere xlarge v20220609 (52.4B) Cohere large v20220720 (13.1B) Cohere medium v20220720 (6.1B) Cohere small v20220720 (410M) Cohere xlarge v20221108 (52.4B) Cohere medium v20221108 (6.1B)	Cohere	官网	受限

DeepMind

发布时间	模型名称	参数量	机构	相关链接	开源
2021-07	AlphaFold	21M	DeepMind	论文
2021-12	Gopher	280B	DeepMind	论文官网	未开源
2022-03	Chincilla	70B	DeepMind	论文	未开源
2022-03	GopherCite	280B	Deepmind	论文
2022-09	Sparrow	70B	Deepmind	论文

EleutherAI

发布时间	模型名称	参数量	机构	相关链接	开源
2021-03	GPT-Neo	5B, 2.7B (XL)	EleutherAI	论文	模型
2021-06	GPT-J	GPT-J (6B)	EleutherAI	博客	模型
2021-12	StableDiffusion	890M	LMU Munich & Stability.ai & Eleuther.ai	论文	模型
2022-04	GPT-NeoX	GPT-NeoX (20B)	EleutherAI	论文	模型
2022-04	Flamingo	80B (largest)	Deepmind	论文	flamingo-mini模型
2022-05	Gato	1.2B	Deepmind	论文

Google

发布时间	模型名称	参数量	机构	相关链接	开源
2018-10	BERT	Base = 110M Large = 340M	Google	论文	模型
2019-01	Transformer XL	151M	CMU & Google	论文	模型
2019-05	XLNet	Base=117M Large=360M	Google AI Brain Team & CMU	论文	模型
2019-09	ALBERT	Base = 12M Large = 18M XLarge = 60M	Google Research	论文	模型
2019-10	T5	11B	Google	论文	模型
2019-12	Pegasus	Base = 223M Large = 568M	UCL & Google	论文	模型
2020-03	ELECTRA	Base = 110M Large = 330M	Google Brain & Stanford University	论文	模型
2020-07	BigBird	取决于整体架构	Google Research	论文	模型
2020-10	ViT	86M(Base) to 632M (Huge)	Google	论文	模型
2021-01	Switch	1T	Google	论文	模型
2021-06	Decision Transformers	117M	Google Brain & UC Berkeley & Facebook AI Research	论文	模型
2021-12	GLaM	1.2T覆盖64个专业领域，但只有96B被激活用于推理	Google	论文
2022-01	LAMDA	137B	Google	官网
2022-04	PaLM	PaLM (540B)	Google	论文官网	未开源
2022-05	UL2	UL2 (20B)	Google	论文	模型
2022-06	Imagen	2B	Google	官网
2022-06	Minerva	540B	Google	官网
2022-12	Flan-T5	Flan-T5 (11B)	Google	论文	模型

Huggingface

发布时间	模型名称	参数量	机构	相关链接	开源
2019-10	DistilBERT	66M	Huggingface	论文	模型

iFLYTEK

发布时间	模型名称	参数量	机构	相关链接	开源
2020-11	MacBert	MacBERT-large, Chinese(324M) MacBERT-base, Chinese(102M)	iFLYTEK AI Research & Harbin Institute of Technology	论文	模型

Meta

发布时间	模型名称	参数量	机构	相关链接	开源
2019-07	RoBERTa	356M	Facebook AI & UW	论文	模型
2019-10	BART	比 BERT 多 10%	Facebook AI	论文	模型
2019-10	XLM-RoBERTa	Base = 270M Large = 550M	Facebook	论文	模型
2020-01	mBART	与BART相同	Facebook	论文	模型
2021-03	Swin Transformer	29M-197M	Facebook	GitHub 论文	模型
2021-07	html	400M	Facebook	论文
2022-01	CM3	13B (largest)	Facebook AI Research	论文
2022-03	SeeKer	与基模型相同	Facebook	官网
2022-05	OPT	OPT (175B) OPT (66B)	Meta AI	论文官网	模型
2022-08	BlenderBot3	175B	Meta AI & Mila/McGill University	论文	blenderbot-3B模型模型
2022-11	Galatica	Galatica (120B)	Meta	论文	模型

Microsoft

发布时间	模型名称	参数量	机构	相关链接	开源
2019-05	UniLM	340M	Microsoft Research	论文 GitHub	模型
2019-10	DialoGPT	1.5B	Microsoft	论文	模型
2022-02	TNLG	TNLG v2 (530B) TNLG v2 (6.7B)	Microsoft/NVIDIA	论文官方博客	未开源

NVidia

发布时间	模型名称	参数量	机构	相关链接	开源
2021-10	MT-NLG (Megatron Touring NLG)	530B	NVidia	官方文档
2020-03	Megatron	8.3B (GPT-like), 3.9B (BERT-like)	NVidia	GitHub 论文1 论文2 论文3	模型
2022-06	Global Context ViT	90M	NVidia

OpenAI

发布时间	模型名称	参数量	机构	相关链接	开源
2018-06	GPT	117M	OpenAI	论文	模型
2019-02	GPT-2	1.5B	OpenAI	论文	模型
2020-05	GPT-3	GPT-3 davinci v1 (175B) GPT-3 curie v1 (6.7B) GPT-3 babbage v1 (1.3B) GPT-3 ada v1 (350M)	OpenAI	论文 GitHub	受限
2021-01	DALL-E	12B	OpenAI	官网论文 Demo
2021-02	CLIP	未知	OpenAI	论文 GitHub	模型
2021-07	Codex	Codex davinci v2 (Unknow) Codex davinci v1 (Unknow) Codex cushman v1 (Unknow)	OpenAI	论文	受限
2021-12	GLIDE	12B	OpenAI	论文 Demo
2022-01	InstructGPT	InstructGPT davinci v2 (175B) InstructGPT davinci v1 (175B) InstructGPT curie v1 (6.7B) InstructGPT babbage v1 (1.3B) InstructGPT ada v1 (350M*)	OpenAI	论文官网	受限
2022-04	DALL-E-2	3.5B	OpenAI	官网论文
2022-10	GPT-3.5	175B	OpenAI	官网	未开源
2022-10	ChatGPT	与 GPT3 相同	OpenAI	官网	未开源

Salesforce

发布时间	模型名称	参数量	机构	相关链接	开源
2019-09	CTRL	1.63B	Salesforce Research	论文	模型

Tsinghua University

发布时间	模型名称	参数量	机构	相关链接	开源
2020-10	GLM	GLM (130B)	Tsinghua University	论文 Demo	10B版模型

UC Berkeley

发布时间	模型名称	参数量	机构	相关链接	开源
2021-06	Trajectory Transformers	比 GPT 更小的架构	UC Berkeley	论文	模型

Yandex

发布时间	模型名称	参数量	机构	相关链接	开源
2022-06	YaLM	YaLM (100B)	Yandex	GitHub	模型

持续更新中 …

由于涉及到的模型较多，文中可能存在纰漏，还望指正，谢谢！

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

以上是关于从 ELMo 到 ChatGPT：历数 NLP 近 5 年必看大模型的主要内容，如果未能解决你的问题，请参考以下文章

NLP的游戏规则从此改写？从word2vec, ELMo到BERT

Embeddings from Language Models（ELMo）

Embeddings from Language Models（ELMo）

Embeddings from Language Models（ELMo）

NLP 预训练模型（例如 ELMo、Bert）的数据预处理

“ChatGPT爆火后，NLP技术不存在了”