微信自研NLP大规模语言模型WeLM：零/少样本即可完成多种NLP任务

Posted 2022-10-26 AI科技大本营

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了微信自研NLP大规模语言模型WeLM：零/少样本即可完成多种NLP任务相关的知识，希望对你有一定的参考价值。

近日，微信AI推出自研NLP大规模语言模型WeLM ，该模型是一个尺寸合理的中文模型，能够在零样本以及少样本的情境下完成包多语言任务在内的多种NLP任务。

同时，微信AI团队也提供了WeLM的体验网页和API接口，感兴趣的用户可前往https://welm.weixin.qq.com/docs/体验和申请API接口，相关技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》也已经发布于论文预印本网站arXiv。

NLP大模型迎新选手，WeLM提供交互式网页PlayGround和API接口

在近几年自然语言处理（NLP）领域的发展浪潮中，OpenAI开发的自然语言处理模型GPT-3无疑风头无两，发布之初便以1750亿参数规模的预训练模型所表现出来的零样本与小样本学习能力刷新了人们的认知，也引爆了AI大模型研究的热潮。

对业界来说，预训练大模型降低了AI应用的门槛，距离“AI把人类从重复性劳动中解放出来”的宏伟目标越来越近，目前，基于GPT-3，全球开发者已经探索出包括编程、回复邮件、UI设计、回答数学问题、法律语言转化、总结中心思想、推理、文本处理等广泛应用场景，并且，各国研究者在多语言/多任务等角度的探索也正在谱写大模型百家争鸣的新篇章。

而在国内以中文为核心的大规模语言模型领域，微信AI推出的百亿级别大规模语言模型WeLM，便是大模型百家争鸣中的新选手。

据介绍，WeLM是一个百亿级别的中文模型，能够在零样本以及少样本的情境下完成包括对话-采访、阅读理解、翻译、改写、续写、多语言阅读理解在内的多种NLP任务，并具备记忆能力、自我纠正和检查能力。并且，WeLM具有尺寸合理的优势，在14项中文NLP任务上，WeLM的整体表现超出了所有同大小的模型，甚至能够匹配比它大25倍的模型。

以被普遍认为是更困难的NLP任务的文本风格转换（改写）为例，尽管用户给出的5个例子和最后需要生成的例子并没有重合的风格转换类型，但WeLM拥有出色的举一反三能力，通过学习少量的文本转换例子即可达到对任意类型的文本转换。并且，WeLM在对话-采访、阅读理解、翻译、续写等多个中文文本生成任务中有着同样优异的表现。

除了具备强大的中文理解和生成能力，WeLM还拥有处理跨多语言（中英日）任务的能力。以“微信 AI 推出の WeLM 是一个 language model that いろいろなtaskをperformができる”这句混合中日英三国语言的文本为例，WeLM的翻译相较Google翻译更为精准。

而且，在进一步微调后，WeLM可以拥有更好的零样本学习能力，可以根据场景拥有更好的表现。目前，WeLM已经部署应用于微信视频号的部分场景中，未来在进一步优化后还将应用于更多微信应用场景。

同时，为进一步推动WeLM成为真正能落地且实用的工具，微信AI团队还发布了一个供用户体验的交互式网页PlayGround，并开放了用于访问WeLM的API接口。

目前，用户可通过https://welm.weixin.qq.com/docs/体验WeLM的相关能力，并通过调整配置以实现更贴近的文本生成效果。对于想接入WeLM的开发者，也可通过https://welm.weixin.qq.com/docs/api/填写问卷后获得WeLM的API Token并调用相应接口，将WeLM部署在自己的应用上。

具有极强知识储备，WeLM在14项中文NLP任务中表现亮眼

据介绍，在纯Encoder(Bert)、纯Decoder(GPT) 以及Encoder-Decode(T5) 结构等主流NLP模型路径的选择上，WeLM和GPT3、Google PaLM一样，选择了自回归模型的路线。同时，考虑到不同的用户对于模型效果和推理延迟会有考量或者取舍（trade-off），微信AI的WeLM训练了1.3B、2.7B以及10B三个版本的模型，满足不同用户的调用需求。

同时，在训练数据上，微信AI团队希望构建一个足够丰富、足够干净、足够公平的数据集，为此研究团队从Common Crawl下载了近两年的中文网页数据，和大量的书籍、新闻。为了增强专业能力，微信AI团队还在数据集补充了知识密集的论坛数据和一些学术论文，搜集完成后的全量数据10TB，其中包含了750G的英文数据，并保留了部分日韩文。

随后，通过规则过滤和额外训练的二分类fasttext模型，以及对测评相关数据的去除，数据集最终处理完的数据量为262B tokens。为了更好的平衡各个数据源的比重，微信AI团队也对数据进行不同比重的采样，最终，整体数据集的Topic分布相比 Common Crawl更加平滑。

在与业界同级别的CPM、华为Pangu和百度Ernie3.0的对比测试中，WeLM表现出极强的知识储备，在14项中文NLP任务上，WeLM 的整体表现超出了所有同大小的模型，甚至能够匹配比它大25倍的模型。同时，在强大的中文理解和生成能力外，WeLM还有出色的多语言理解能力，用户的输入可以在中日英上丝滑切换。

目前，WeLM的相关技术论文《WeLM: A Well-Read Pre-trained Language Model for Chinese》已经发布于论文预印本网站arXiv，感兴趣的用户可前往https://arxiv.org/abs/2209.10372查看更多技术细节。

在NLP领域，让大模型成为真正能落地且实用的工具，是每一位NLP领域的研究者矢志不渝的方向。未来，微信AI也将针对WeLM进行进一步的微调优化，进一步提升其在新任务上的泛化效果，也欢迎更多开发者、用户前来体验WeLM并提出宝贵意见和建议，帮助该模型早日成为真正能落地且实用的工具，共同探索人工智能的发展之路。

— 推荐阅读 —

☞一文 Get 汽车知识的语义网络及图谱构建

☞15年后再次对话Python之父：人类大脑才是软件开发效率的天花板
☞Python、C、Java 和 C++ 四足鼎立，其他已无胜算？| TIOBE 10 月编程语言排行榜

以上是关于微信自研NLP大规模语言模型WeLM：零/少样本即可完成多种NLP任务的主要内容，如果未能解决你的问题，请参考以下文章

网易云信自研大规模传输网核心系统架构剖析

WeLM简介及微信公众号开发

微信自研生产级paxos类库PhxPaxos实现原理介绍

微信版大语言模型来了：跨时空对话李白教你高情商说话，API在线试玩全都有...