从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
Posted Alexxinlu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型相关的知识,希望对你有一定的参考价值。
目录
- AI21 Labs
- Alibaba
- Allen Institute for AI
- Amazon
- Anthropic
- BAAI
- Baidu
- BigScience
- Cohere
- DeepMind
- EleutherAI
- Huggingface
- iFLYTEK
- Meta
- Microsoft
- NVidia
- OpenAI
- Salesforce
- Tsinghua University
- UC Berkeley
- Yandex
- 持续更新中 ...
- 参考
团队博客: CSDN AI小组
先上 “万恶之源”:Transformer
按机构分类
AI21 Labs
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-09 | Jurassic-1 (J1) | J1-Jumbo v1 (178B) J1-Large v1 (7.5B) J1-Grande v1 (17B) | AI21 Labs | 论文 官方文档 技术报告 | 受限 |
Alibaba
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-08 | StructBert | structbert.en.large(340M) structroberta.en.large(355M) structbert.ch.large(330M) | Alibaba Group Inc. | 论文 GitHub | 模型 |
Allen Institute for AI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-02 | ELMo | Small(13.6M) Medium(28.0M) Original(93.6M) | Allen Institute for AI | 论文 | 模型 |
Amazon
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-03 | DQ-BART | 与标准BART相比,参数减少了30倍 | Amazon | 论文 |
Anthropic
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-12 | Anthropic-LM | Anthropic-LM v4-s3 (52B) | Anthropic | 论文1 论文2 | 未开源 |
BAAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-06 | Wu Dao 2.0 | 1.75T | BAAI | 官网 | 模型 |
Baidu
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-05 | ERNIE | 114M | Baidu | GitHub 论文 | 模型 |
BigScience
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-05 | T0pp | 11B | BigScience | 论文 | 模型 |
2022-07 | BLOOM | 176B | BigScience | 论文 | 模型 |
2022-11 | BLOOMZ | 176B | BigScience | 论文 | 模型 |
Cohere
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-06 | Cohere | Cohere xlarge v20220609 (52.4B) Cohere large v20220720 (13.1B) Cohere medium v20220720 (6.1B) Cohere small v20220720 (410M) Cohere xlarge v20221108 (52.4B) Cohere medium v20221108 (6.1B) | Cohere | 官网 | 受限 |
DeepMind
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-07 | AlphaFold | 21M | DeepMind | 论文 | |
2021-12 | Gopher | 280B | DeepMind | 论文 官网 | 未开源 |
2022-03 | Chincilla | 70B | DeepMind | 论文 | 未开源 |
2022-03 | GopherCite | 280B | Deepmind | 论文 | |
2022-09 | Sparrow | 70B | Deepmind | 论文 |
EleutherAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-03 | GPT-Neo | 5B, 2.7B (XL) | EleutherAI | 论文 | 模型 |
2021-06 | GPT-J | GPT-J (6B) | EleutherAI | 博客 | 模型 |
2021-12 | StableDiffusion | 890M | LMU Munich & Stability.ai & Eleuther.ai | 论文 | 模型 |
2022-04 | GPT-NeoX | GPT-NeoX (20B) | EleutherAI | 论文 | 模型 |
2022-04 | Flamingo | 80B (largest) | Deepmind | 论文 | flamingo-mini模型 |
2022-05 | Gato | 1.2B | Deepmind | 论文 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-10 | BERT | Base = 110M Large = 340M | 论文 | 模型 | |
2019-01 | Transformer XL | 151M | CMU & Google | 论文 | 模型 |
2019-05 | XLNet | Base=117M Large=360M | Google AI Brain Team & CMU | 论文 | 模型 |
2019-09 | ALBERT | Base = 12M Large = 18M XLarge = 60M | Google Research | 论文 | 模型 |
2019-10 | T5 | 11B | 论文 | 模型 | |
2019-12 | Pegasus | Base = 223M Large = 568M | UCL & Google | 论文 | 模型 |
2020-03 | ELECTRA | Base = 110M Large = 330M | Google Brain & Stanford University | 论文 | 模型 |
2020-07 | BigBird | 取决于整体架构 | Google Research | 论文 | 模型 |
2020-10 | ViT | 86M(Base) to 632M (Huge) | 论文 | 模型 | |
2021-01 | Switch | 1T | 论文 | 模型 | |
2021-06 | Decision Transformers | 117M | Google Brain & UC Berkeley & Facebook AI Research | 论文 | 模型 |
2021-12 | GLaM | 1.2T覆盖64个专业领域,但只有96B被激活用于推理 | 论文 | ||
2022-01 | LAMDA | 137B | 官网 | ||
2022-04 | PaLM | PaLM (540B) | 论文 官网 | 未开源 | |
2022-05 | UL2 | UL2 (20B) | 论文 | 模型 | |
2022-06 | Imagen | 2B | 官网 | ||
2022-06 | Minerva | 540B | 官网 | ||
2022-12 | Flan-T5 | Flan-T5 (11B) | 论文 | 模型 |
Huggingface
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-10 | DistilBERT | 66M | Huggingface | 论文 | 模型 |
iFLYTEK
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2020-11 | MacBert | MacBERT-large, Chinese(324M) MacBERT-base, Chinese(102M) | iFLYTEK AI Research & Harbin Institute of Technology | 论文 | 模型 |
Meta
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-07 | RoBERTa | 356M | Facebook AI & UW | 论文 | 模型 |
2019-10 | BART | 比 BERT 多 10% | Facebook AI | 论文 | 模型 |
2019-10 | XLM-RoBERTa | Base = 270M Large = 550M | 论文 | 模型 | |
2020-01 | mBART | 与BART相同 | 论文 | 模型 | |
2021-03 | Swin Transformer | 29M-197M | GitHub 论文 | 模型 | |
2021-07 | html | 400M | 论文 | ||
2022-01 | CM3 | 13B (largest) | Facebook AI Research | 论文 | |
2022-03 | SeeKer | 与基模型相同 | 官网 | ||
2022-05 | OPT | OPT (175B) OPT (66B) | Meta AI | 论文 官网 | 模型 |
2022-08 | BlenderBot3 | 175B | Meta AI & Mila/McGill University | 论文 | blenderbot-3B模型 模型 |
2022-11 | Galatica | Galatica (120B) | Meta | 论文 | 模型 |
Microsoft
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-05 | UniLM | 340M | Microsoft Research | 论文 GitHub | 模型 |
2019-10 | DialoGPT | 1.5B | Microsoft | 论文 | 模型 |
2022-02 | TNLG | TNLG v2 (530B) TNLG v2 (6.7B) | Microsoft/NVIDIA | 论文 官方博客 | 未开源 |
NVidia
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-10 | MT-NLG (Megatron Touring NLG) | 530B | NVidia | 官方文档 | |
2020-03 | Megatron | 8.3B (GPT-like), 3.9B (BERT-like) | NVidia | GitHub 论文1 论文2 论文3 | 模型 |
2022-06 | Global Context ViT | 90M | NVidia |
OpenAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-06 | GPT | 117M | OpenAI | 论文 | 模型 |
2019-02 | GPT-2 | 1.5B | OpenAI | 论文 | 模型 |
2020-05 | GPT-3 | GPT-3 davinci v1 (175B) GPT-3 curie v1 (6.7B) GPT-3 babbage v1 (1.3B) GPT-3 ada v1 (350M) | OpenAI | 论文 GitHub | 受限 |
2021-01 | DALL-E | 12B | OpenAI | 官网 论文 Demo | |
2021-02 | CLIP | 未知 | OpenAI | 论文 GitHub | 模型 |
2021-07 | Codex | Codex davinci v2 (Unknow) Codex davinci v1 (Unknow) Codex cushman v1 (Unknow) | OpenAI | 论文 | 受限 |
2021-12 | GLIDE | 12B | OpenAI | 论文 Demo | |
2022-01 | InstructGPT | InstructGPT davinci v2 (175B*) InstructGPT davinci v1 (175B*) InstructGPT curie v1 (6.7B*) InstructGPT babbage v1 (1.3B*) InstructGPT ada v1 (350M*) | OpenAI | 论文 官网 | 受限 |
2022-04 | DALL-E-2 | 3.5B | OpenAI | 官网 论文 | |
2022-10 | GPT-3.5 | 175B | OpenAI | 官网 | 未开源 |
2022-10 | ChatGPT | 与 GPT3 相同 | OpenAI | 官网 | 未开源 |
Salesforce
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-09 | CTRL | 1.63B | Salesforce Research | 论文 | 模型 |
Tsinghua University
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2020-10 | GLM | GLM (130B) | Tsinghua University | 论文 Demo | 10B版模型 |
UC Berkeley
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-06 | Trajectory Transformers | 比 GPT 更小的架构 | UC Berkeley | 论文 | 模型 |
Yandex
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-06 | YaLM | YaLM (100B) | Yandex | GitHub | 模型 |
持续更新中 …
由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!
参考
[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition
以上是关于从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型的主要内容,如果未能解决你的问题,请参考以下文章
NLP的游戏规则从此改写?从word2vec, ELMo到BERT
Embeddings from Language Models(ELMo)
Embeddings from Language Models(ELMo)