从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型
Posted Alexxinlu
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型相关的知识,希望对你有一定的参考价值。
目录
- AI21 Labs
- Alibaba
- Allen Institute for AI
- Amazon
- Anthropic
- BAAI
- Baidu
- BigScience
- Cohere
- DeepMind
- EleutherAI
- Huggingface
- iFLYTEK
- Meta (Facebook)
- Microsoft
- NVidia
- OpenAI
- Salesforce
- Tsinghua University
- UC Berkeley
- Yandex
- 持续更新中 ...
- 参考
团队博客: CSDN AI小组
相关阅读
先上 “万恶之源”:Transformer
按机构分类
AI21 Labs
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-09 | Jurassic-1 (J1) | J1-Jumbo v1 (178B), J1-Large v1 (7.5B), J1-Grande v1 (17B) | AI21 Labs | 论文 , 官方文档, 技术报告 | 受限 |
Alibaba
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-08 | StructBert | structbert.en.large(340M), structroberta.en.large(355M), structbert.ch.large(330M) | Alibaba Group Inc. | 论文, GitHub | 模型 |
Allen Institute for AI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-02 | ELMo | Small(13.6M), Medium(28.0M), Original(93.6M) | Allen Institute for AI & University of Washington | 论文 | 模型 |
Amazon
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-03 | DQ-BART | 与标准BART相比,参数减少了30倍 | Cornell University & AWS AI Labs & University of Pennsylvania | 论文 |
Anthropic
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-12 | Anthropic-LM | Anthropic-LM v4-s3 (52B) | Anthropic | 论文1, 论文2 | 未开源 |
BAAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-06 | Wu Dao 2.0 | 1.75T | BAAI | 官网 | 模型 |
Baidu
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-05 | ERNIE | 114M | Baidu | GitHub, 论文 | 模型 |
BigScience
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-05 | T0pp | 11B | BigScience etc. | 论文 | 模型 |
2022-07 | BLOOM | 176B | BigScience | 论文 | 模型 |
2022-11 | BLOOMZ | 176B | BigScience etc. | 论文 | 模型 |
Cohere
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-06 | Cohere | Cohere xlarge v20220609 (52.4B), Cohere large v20220720 (13.1B) , Cohere medium v20220720 (6.1B) , Cohere small v20220720 (410M) , Cohere xlarge v20221108 (52.4B), Cohere medium v20221108 (6.1B) | Cohere | 官网 | 受限 |
DeepMind
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-07 | AlphaFold | 21M | DeepMind etc. | 论文 | |
2021-12 | Gopher | 280B | DeepMind | 论文, 官网 | 未开源 |
2022-03 | Chincilla | 70B | DeepMind | 论文 | 未开源 |
2022-03 | GopherCite | 280B | Deepmind & University College London | 论文 | |
2022-04 | Flamingo | 80B (largest) | Deepmind | 论文 | flamingo-mini模型 |
2022-05 | Gato | 1.2B | Deepmind | 论文 | |
2022-09 | Sparrow | 70B | Deepmind | 论文 |
EleutherAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-03 | GPT-Neo | 5B, 2.7B (XL) | EleutherAI | 论文 | 模型 |
2021-06 | GPT-J | 6B | EleutherAI | 博客 | 模型 |
2021-12 | StableDiffusion | 890M | LMU Munich & Stability.ai & Eleuther.ai | 论文 | 模型 |
2022-04 | GPT-NeoX | 20B | EleutherAI | 论文 | 模型 |
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-10 | BERT | Base = 110M, Large = 340M | Google AI Language | 论文 | 模型 |
2019-01 | Transformer XL | 151M | Carnegie Mellon University & Google Brain | 论文 | 模型 |
2019-05 | XLNet | Base=117M, Large=360M | Google AI Brain Team & Carnegie Mellon University | 论文 | 模型 |
2019-09 | ALBERT | Base = 12M, Large = 18M, XLarge = 60M | Google Research & Toyota Technological Institute at Chicago | 论文 | 模型 |
2019-10 | T5 | 11B | 论文 | 模型 | |
2019-12 | Pegasus | Base = 223M, Large = 568M | Imperial College London & Google Research | 论文 | 模型 |
2020-03 | ELECTRA | Base = 110M, Large = 330M | Google Brain & Stanford University | 论文 | 模型 |
2020-07 | BigBird | 取决于整体架构 | Google Research | 论文 | 模型 |
2020-10 | ViT | 86M(Base) to 632M (Huge) | Google Research | 论文 | 模型 |
2021-01 | Switch | 1T | 论文 | 模型 | |
2021-06 | Decision Transformers | 117M | Google Brain & UC Berkeley & Facebook AI Research | 论文 | 模型 |
2021-12 | GLaM | 1.2T覆盖64个专业领域, 但只有96B被激活用于推理 | 论文, 官方博客 | ||
2022-01 | LAMDA | 137B | 论文, 官方博客 | ||
2022-04 | PaLM | 540B | Google Research | 论文, 官方博客 | 未开源 |
2022-05 | UL2 | 20B | Google Research | 论文 | 模型 |
2022-06 | Imagen | 2B | Google Research | 论文, 官网 | |
2022-06 | Minerva | 540B | Google Research | 论文, 官网 | |
2022-12 | Flan-T5 | 11B | 论文 | 模型 |
Huggingface
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-10 | DistilBERT | 66M | Huggingface | 论文 | 模型 |
iFLYTEK
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2020-11 | MacBert | MacBERT-large, Chinese(324M), MacBERT-base, Chinese(102M) | iFLYTEK AI Research & Harbin Institute of Technology | 论文 | 模型 |
Meta (Facebook)
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-07 | RoBERTa | 356M | Facebook AI & University of Washington | 论文 | 模型 |
2019-10 | BART | 比 BERT 多 10% | Facebook AI | 论文 | 模型 |
2019-10 | XLM-RoBERTa | Base = 270M, Large = 550M | Facebook AI | 论文 | 模型 |
2020-01 | mBART | 与BART相同 | Facebook AI Research | 论文 | 模型 |
2021-07 | html | 400M | Facebook AI & University of Washington | 论文 | |
2022-01 | CM3 | 13B (largest) | Facebook AI Research | 论文 | |
2022-03 | SeeKer | 与基模型相同 | Facebook AI Research & ETH Zürich | 论文, 官网 | |
2022-05 | OPT | 175B, 66B | Meta AI | 论文, 官网 | 模型 |
2022-08 | BlenderBot3 | 175B | Meta AI & Mila/McGill University | 论文 | blenderbot-3B模型, 模型 |
2022-11 | Galatica | 120B | Meta AI | 论文 | 模型 |
Microsoft
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-03 | MT-DNN | 330M | Microsoft Research | 论文 | 模型 |
2019-05 | UniLM | 340M | Microsoft Research | 论文, GitHub | 模型 |
2019-10 | DialoGPT | 1.5B | Microsoft Corporation | 论文 | 模型 |
2020-02 | Turing NLG | 17B | Microsoft | 官方博客 | |
2021-03 | Swin Transformer | 29M-197M | Microsoft Research Asia | GitHub , 论文 | 模型 |
NVidia
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-09 | Megatron-LM | 8.3B (GPT-like), 3.9B (BERT-like) | NVidia | 论文, GitHub | |
2021-10 | Megatron Turing NLG | 530B | Microsoft & NVIDIA | 论文, 官方博客 | 未开源 |
2022-06 | Global Context ViT | 90M | NVidia | 论文 |
OpenAI
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2018-06 | GPT | 117M | OpenAI | 论文 | 模型 |
2019-02 | GPT-2 | 1.5B | OpenAI | 论文 | 模型 |
2020-05 | GPT-3 | GPT-3 davinci v1 (175B), GPT-3 curie v1 (6.7B), GPT-3 babbage v1 (1.3B), GPT-3 ada v1 (350M) | OpenAI | 论文, GitHub | 受限 |
2021-01 | DALL-E | 12B | OpenAI | 论文, 官方博客, Demo | |
2021-02 | CLIP | 未知 | OpenAI | 论文, GitHub | 模型 |
2021-07 | Codex | Codex davinci v2 (Unknow), Codex davinci v1 (Unknow), Codex cushman v1 (Unknow) | OpenAI | 论文 | 受限 |
2021-12 | GLIDE | 12B | OpenAI | 论文, Demo | |
2022-01 | InstructGPT | InstructGPT davinci v2 (175B*), InstructGPT davinci v1 (175B*), InstructGPT curie v1 (6.7B*), InstructGPT babbage v1 (1.3B*), InstructGPT ada v1 (350M*) | OpenAI | 论文, 官网 | 受限 |
2022-04 | DALL-E-2 | 3.5B | OpenAI | 论文, 官网 | |
2022-10 | GPT-3.5 | 175B | OpenAI | 官网 | 未开源 |
2022-10 | ChatGPT | 与 GPT3 相同 | OpenAI | 官网 | 未开源 |
Salesforce
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2019-09 | CTRL | 1.63B | Salesforce Research | 论文 | 模型 |
Tsinghua University
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2020-10 | GLM | 130B | Tsinghua University & Zhipu.AI | 论文, Demo | 10B版模型 |
UC Berkeley
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2021-06 | Trajectory Transformers | 比 GPT 更小的架构 | UC Berkeley | 论文 | 模型 |
Yandex
发布时间 | 模型名称 | 参数量 | 机构 | 相关链接 | 开源 |
---|---|---|---|---|---|
2022-06 | YaLM | 100B | Yandex | GitHub, 博客 | 模型 |
持续更新中 …
由于涉及到的模型较多,文中可能存在纰漏,还望指正,谢谢!
参考
[1] CRFM Benchmarking
[2] Transformer models: an introduction and catalog — 2023 Edition
以上是关于从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型的主要内容,如果未能解决你的问题,请参考以下文章
NLP的游戏规则从此改写?从word2vec, ELMo到BERT
Embeddings from Language Models(ELMo)
Embeddings from Language Models(ELMo)