从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

Posted Alexxinlu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型相关的知识,希望对你有一定的参考价值。

目录


团队博客: CSDN AI小组


先上 “万恶之源”:Transformer


按机构分类

AI21 Labs

发布时间模型名称参数量机构相关链接开源
2021-09Jurassic-1 (J1)J1-Jumbo v1 (178B)
J1-Large v1 (7.5B)
J1-Grande v1 (17B)
AI21 Labs论文
官方文档
技术报告
受限

Alibaba

发布时间模型名称参数量机构相关链接开源
2019-08StructBertstructbert.en.large(340M)
structroberta.en.large(355M)
structbert.ch.large(330M)
Alibaba Group Inc.论文
GitHub
模型

Allen Institute for AI

发布时间模型名称参数量机构相关链接开源
2018-02ELMoSmall(13.6M)
Medium(28.0M)
Original(93.6M)
Allen Institute for AI论文模型

Amazon

发布时间模型名称参数量机构相关链接开源
2022-03DQ-BART与标准BART相比,参数减少了30倍Amazon论文

Anthropic

发布时间模型名称参数量机构相关链接开源
2021-12Anthropic-LMAnthropic-LM v4-s3 (52B)Anthropic论文1
论文2
未开源

BAAI

发布时间模型名称参数量机构相关链接开源
2021-06Wu Dao 2.01.75TBAAI官网模型

Baidu

发布时间模型名称参数量机构相关链接开源
2019-05ERNIE114MBaiduGitHub
论文
模型

BigScience

发布时间模型名称参数量机构相关链接开源
2022-05T0pp11BBigScience论文模型
2022-07BLOOM176BBigScience论文模型
2022-11BLOOMZ176BBigScience论文模型

Cohere

发布时间模型名称参数量机构相关链接开源
2022-06CohereCohere xlarge v20220609 (52.4B)
Cohere large v20220720 (13.1B)
Cohere medium v20220720 (6.1B)
Cohere small v20220720 (410M)
Cohere xlarge v20221108 (52.4B)
Cohere medium v20221108 (6.1B)
Cohere官网受限

DeepMind

发布时间模型名称参数量机构相关链接开源
2021-07AlphaFold21MDeepMind论文
2021-12Gopher280BDeepMind论文
官网
未开源
2022-03Chincilla70BDeepMind论文未开源
2022-03GopherCite280BDeepmind论文
2022-09Sparrow70BDeepmind论文

EleutherAI

发布时间模型名称参数量机构相关链接开源
2021-03GPT-Neo5B, 2.7B (XL)EleutherAI论文模型
2021-06GPT-JGPT-J (6B)EleutherAI博客模型
2021-12StableDiffusion890MLMU Munich & Stability.ai & Eleuther.ai论文模型
2022-04GPT-NeoXGPT-NeoX (20B)EleutherAI论文模型
2022-04Flamingo80B (largest)Deepmind论文flamingo-mini模型
2022-05Gato1.2BDeepmind论文

Google

发布时间模型名称参数量机构相关链接开源
2018-10BERTBase = 110M
Large = 340M
Google论文模型
2019-01Transformer XL151MCMU & Google论文模型
2019-05XLNetBase=117M
Large=360M
Google AI Brain Team & CMU论文模型
2019-09ALBERTBase = 12M
Large = 18M
XLarge = 60M
Google Research论文模型
2019-10T511BGoogle论文模型
2019-12PegasusBase = 223M
Large = 568M
UCL & Google论文模型
2020-03ELECTRABase = 110M
Large = 330M
Google Brain & Stanford University论文模型
2020-07BigBird取决于整体架构Google Research论文模型
2020-10ViT86M(Base) to 632M (Huge)Google论文模型
2021-01Switch1TGoogle论文模型
2021-06Decision Transformers117MGoogle Brain & UC Berkeley & Facebook AI Research论文模型
2021-12GLaM1.2T覆盖64个专业领域,但只有96B被激活用于推理Google论文
2022-01LAMDA137BGoogle官网
2022-04PaLMPaLM (540B)Google论文
官网
未开源
2022-05UL2UL2 (20B)Google论文模型
2022-06Imagen2BGoogle官网
2022-06Minerva540BGoogle官网
2022-12Flan-T5Flan-T5 (11B)Google论文模型

Huggingface

发布时间模型名称参数量机构相关链接开源
2019-10DistilBERT66MHuggingface论文模型

iFLYTEK

发布时间模型名称参数量机构相关链接开源
2020-11MacBertMacBERT-large, Chinese(324M)
MacBERT-base, Chinese(102M)
iFLYTEK AI Research & Harbin Institute of Technology论文模型

Meta

发布时间模型名称参数量机构相关链接开源
2019-07RoBERTa356MFacebook AI & UW论文模型
2019-10BART比 BERT 多 10%Facebook AI论文模型
2019-10XLM-RoBERTaBase = 270M
Large = 550M
Facebook论文模型
2020-01mBART与BART相同Facebook论文模型
2021-03Swin Transformer29M-197MFacebookGitHub
论文
模型
2021-07html400MFacebook论文
2022-01CM313B (largest)Facebook AI Research论文
2022-03SeeKer与基模型相同Facebook官网
2022-05OPTOPT (175B)
OPT (66B)
Meta AI论文
官网
模型
2022-08BlenderBot3175BMeta AI & Mila/McGill University论文blenderbot-3B模型
模型
2022-11GalaticaGalatica (120B)Meta论文模型

Microsoft

发布时间模型名称参数量机构相关链接开源
2019-05UniLM340MMicrosoft Research论文
GitHub
模型
2019-10DialoGPT1.5BMicrosoft论文模型
2022-02TNLGTNLG v2 (530B)
TNLG v2 (6.7B)
Microsoft/NVIDIA论文
官方博客
未开源

NVidia

发布时间模型名称参数量机构相关链接开源
2021-10MT-NLG (Megatron Touring NLG)530BNVidia官方文档
2020-03Megatron8.3B (GPT-like), 3.9B (BERT-like)NVidiaGitHub
论文1
论文2
论文3
模型
2022-06Global Context ViT90MNVidia

OpenAI

发布时间模型名称参数量机构相关链接开源
2018-06GPT117MOpenAI论文模型
2019-02GPT-21.5BOpenAI论文模型
2020-05GPT-3GPT-3 davinci v1 (175B)
GPT-3 curie v1 (6.7B)
GPT-3 babbage v1 (1.3B)
GPT-3 ada v1 (350M)
OpenAI论文
GitHub
受限
2021-01DALL-E12BOpenAI官网
论文
Demo
2021-02CLIP未知OpenAI论文
GitHub
模型
2021-07CodexCodex davinci v2 (Unknow)
Codex davinci v1 (Unknow)
Codex cushman v1 (Unknow)
OpenAI论文受限
2021-12GLIDE12BOpenAI论文
Demo
2022-01InstructGPTInstructGPT davinci v2 (175B*)
InstructGPT davinci v1 (175B*)
InstructGPT curie v1 (6.7B*)
InstructGPT babbage v1 (1.3B*)
InstructGPT ada v1 (350M*)
OpenAI论文
官网
受限
2022-04DALL-E-23.5BOpenAI官网
论文
2022-10GPT-3.5175BOpenAI官网未开源
2022-10ChatGPT与 GPT3 相同OpenAI官网未开源

Salesforce

发布时间模型名称参数量机构相关链接开源
2019-09CTRL1.63BSalesforce Research论文模型

Tsinghua University

发布时间模型名称参数量机构相关链接开源
2020-10GLMGLM (130B)Tsinghua University论文
Demo
10B版模型

UC Berkeley

发布时间模型名称参数量机构相关链接开源
2021-06Trajectory Transformers比 GPT 更小的架构UC Berkeley论文模型

Yandex

发布时间模型名称参数量机构相关链接开源
2022-06YaLMYaLM (100B)YandexGitHub模型

持续更新中 …

由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!

参考

[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition

以上是关于从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型的主要内容,如果未能解决你的问题,请参考以下文章

NLP的游戏规则从此改写?从word2vec, ELMo到BERT

Embeddings from Language Models(ELMo)

Embeddings from Language Models(ELMo)

Embeddings from Language Models(ELMo)

NLP 预训练模型(例如 ELMo、Bert)的数据预处理

“ChatGPT爆火后,NLP技术不存在了”