EasyNLP 开源中文 NLP 算法框架

Posted ejinxian

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了EasyNLP 开源中文 NLP 算法框架相关的知识,希望对你有一定的参考价值。

  • 1、背景

        随着 BERT、Megatron、GPT-3 等预训练模型在 NLP 领域获得前瞻的成果,许多多团队也进入超大规模训练中,使得训练模型从亿级别发展到了千亿甚至万亿的规模。首先,模型参数量过大使得训练和推理速度过慢且部署成本极高;其次在很多实际场景中数据量不足的问题仍然制约着大模型在小样本场景中的应用,PAI 团队推出了 EasyNLP 中文 NLP 算法框架,助力大模型快速且高效的落地。

  • EasyNLP 简述

        EasyNLP 是 PAI 算法团队基于 PyTorch 开发的易用且丰富的中文 NLP 算法框架,EasyNLP 提供了简洁的接口供用户开发 NLP 模型,包括 NLP 应用 AppZoo 和预训练 ModelZoo。无缝对接 PAI 系列产品,例如 PAI-DLC、PAI-DSW、PAI-Designer 和 PAI-EAS,给用户带来高效的从训练到落地的完整体验。

开源项目地址:GitHub - alibaba/EasyNLP: EasyNLP: A Comprehensive and Easy-to-use NLP Toolkit

EasyNLP 主要特性如下:

        1、易用且兼容开源

                EasyNLP 支持常用的中文 NLP 数据和模型,EasyNLP 还抽象了一定的自定义模块如 AppZoo 和 ModelZoo,降低 NLP 应用的门槛。

        2、大模型小样本落地技术

                EasyNLP 框架集成了多种经典的小样本学习算法,例如 PET、P-Tuning 等,

        3、大模型知识蒸馏技术

                EasyNLP 支持数据增强,通过预训练模型来增强目标领域的数据,可以有效的提升知识蒸馏的效果,

  • EasyNLP 框架

EasyNLP 架构主核心模块

        基础模块:提供了预训练模型库 ModelZoo,支持常用的中文预训练模型,包括 BERT,MacBERT,WOBERT 等;也提供常用的 NN 模块,方便用户自定义模型;

        应用层:AppZoo 支持常见的 NLP 应用比方说文本分类,文本匹配等;EasyNLP 支持预训练模型落地工具,包括小样本学习和知识蒸馏,助力大模型快速落地,这里也集成了多个 PAI 团队自研的算法;

        NLP 应用和解决方案:提供了多个 NLP 解决方案和 ModelHub 模型帮助用户解决业务问题;

        工具层:可以支持本地拉起服务,也可以在阿里云产品上部署和调用,比方说 PAI-DLC、PAI-DSW、PAI-Designer 和 PAI-EAS,给用户带来高效的从训练到落地的完整体验;

  

RoadMap

  • 基于 EasyNLP 的中文 CLUE/FewCLUE 等的 Benchmark
  • 知识预训练技术:发布一系列知识预训练模型,致力于提升预训练模型的常识性和知识性
  • 中文预训练模型:发布针对中文的 SOTA 的预训练模型,降低中文预训练技术门槛
  • 多模态预训练:发布针对中文的多模态预训练模型
  • 中文数据的收集和 API 接口:收集常用的中文数据,提供预处理和训练接口
  • 垂直场景的 SOTA 中文模型整合:针对垂直业务场景,整合效果最好的中文模型
  • 发布解决方案和 PAI 组件

参考:阿里云机器学习 PAI 开源中文 NLP 算法框架 EasyNLP,助力 NLP 大模型落地 - OSCHINA - 中文开源技术交流社区

以上是关于EasyNLP 开源中文 NLP 算法框架的主要内容,如果未能解决你的问题,请参考以下文章

EasyNLP简介

EasyNLP发布融合语言学和事实知识的中文预训练模型CKBERT

EasyNLP 发布融合语言学和事实知识的中文预训练模型 CKBERT

NLP 中文形近字相似度算法开源实现

EasyNLP带你实现中英文机器阅读理解

EasyNLP 带你实现中英文机器阅读理解