一举刷新 54 个中文 NLP 任务基准,大模型加持下的EasyDL有多强?

Posted Datawhale

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一举刷新 54 个中文 NLP 任务基准,大模型加持下的EasyDL有多强?相关的知识,希望对你有一定的参考价值。

 Datawhale分享 

EasyDL:一键安装,本地高效建模

随着AI技术的发展,NLP技术已经陆续“上岗”至各类产业应用场景中,自动处理繁杂而重复性的工作,如新闻内容自动分类、智能客服自动回复、评论敏感词审核、用户评论情感分析等。

1

为什么NLP已然成为企业降本增效利器?

在金融、政务、法律、医疗等众多行业中,每天会产生大量文档信息需要处理。以文本信息处理为例:

一个审核员一天最多审核5000条文本信息,且难以保证准确性,而在线的UGC资讯网站往往平均一个小时就要接收超百万条文本信息。

由此可见在真实的业务场景中,全部通过人力来实现信息生产、处理、发布全流程跟踪基本是不可能的,急需NLP技术实现信息的智能化处理,为企业降本增效。

2

NLP“上岗”至业务中的几大难题

NLP技术在实际场景中的应用并不像想象中那么顺利,主要源自于NLP场景化应用模型定制的过程中,存在诸多的难题:

  • 数据标注费时费力:自建模型需要人工标注业务数据,费时费力,标注成本巨高,极大影响业务进度;

  • 方案选型没头绪:不清楚最优模型方案,不确定模型评估指标,不知道模型效果如何调优;

  • 模型部署落地难:不清楚适合业务场景的部署方案,实施部署开发难度大、成本高。

3

零代码、高质量搞定AI需求!

针对这些问题,百度飞桨EasyDL 为大家提供了「一站式NLP任务开发服务」,把数据、训练和部署的活儿都揽了过来,还实现了全流程自动化,用户只需根据平台的提示拖拉拽操作即可,不懂算法、不会写代码都不是问题。目前EasyDL已经支持文本分类、文本创作、情感倾向分析、短文本相似度匹配、实体抽取、实体关系抽取、评论观点抽取等任务类型,全面、高效、便捷地解决中小企业实际业务需求。

点击阅读原文GET

EasyDL-文本体验链接

https://ai.baidu.com/easydl/nlp/

数据阶段:「AI员工」助力高效标注

为帮助企业在数据准备环节降低成本,提高标注效果,EasyDL平台提供“AI员工”智能标注服务。在实际应用中,仅需少量人工标注数据,聪明的“AI员工”就可以对其他未标注数据进行智能标注,高效解决数据标注的大难题,帮助企业在数据准备环节降低成本,提高标注效果。

训练阶段:仅20%小样本数据实现高精度模型效果

EasyDL NLP近日将文心 ERNIE 大模型「底座」升级到 3.0。这意味着什么?让我们从以下几个方面,看看文心大模型如何使得EasyDL文本能力更强大:

  • 海量的中文数据知识储备:文心大模型之ERNIE 3.0作为百亿参数知识增强的大模型,除了从海量文本数据中学习词汇、结构、语义等知识外,还从大规模知识图谱中学习。因此EasyDL NLP任务在中文模型训练上表现出更优质的效果,再也不用担心模型看不懂中文啦~

  • 小样本快捷训练:文心大模型ERNIE 3.0同时处理语言理解和语言生成任务,通过少量训练数据即可达到良好的训练效果。当前EasyDL NLP标注量可降低至原先的20%

  • 任务效果领先:文心大模型ERNIE 3.0 一举刷新 54 个中文 NLP 任务基准,包含情感分析、观点抽取、阅读理解、文本摘要、对话生成、数学运算等任务。经过权威公开数据集验证,各类NLP任务平均精度高达90%以上

  • 多场景创作能力:文心大模型ERNIE 3.0在文学创作能力方面有了显著提升,通过对海量文本与知识的学习,让EasyDL的“文本创作”任务无需专门训练,即可进行小说、歌词、诗歌、对联等文学创作。话不多说上效果。

向下滑动查看所有内容

看到这里,小伙伴一定发现了,EasyDL 文本能力在文心大模型ERNIE 3.0「底座」的支持下具备强大的通用知识能力,就像一个修炼了多年内功的武林高手。有了这些通用知识,只需要少量特定业务场景的数据就可以「触类旁通」,实现NLP业务落地

部署阶段:多种方式自由选择

  • 公有云API:用户可直接调用百度云提供的API进行使用,快捷又省心。

  • 本地服务器部署:针对一些有本地化、私有化部署的需求,用户可灵活接入本地化服务部署方式,同样可以获得高性能serving能力。

4

广泛成熟的实践应用

助力各行各业AI升级

目前EasyDL的零门槛、专业性强等特性已经被中小企业广泛接收,使用EasyDL的用户数已经超过100万,覆盖20多个行业场景,包括互联网、工业、农业、医疗、物流、零售、教育、交通等

  • 企业服务:翰才猎头使用文本分类模型,在平台上通过智能标注功能实现199万条数据自动标注,最终训练出准确率达到了95%+ 的“候选人职能”、“候选人职级”等模型,智能化解决了公司200万人才库简历的筛选问题。

  • 金融领域:集牛科技基于文本实体抽取模型定制功能,自主实现了基于保险代理人拜访日志的关键信息抽取,有效提升了客户智能化运营效率。

  • 物流领域:某互联网搬家平台使用EasyDL文本分类筛选优质用户留言,判断用户是否有效下单,精准定位目标用户,识别准确率达97%以上,有效提升平台整体的运营效率。

  • 电子商务领域:飞鸽传书号卡ERP订单管理系统接入飞桨EasyDL文本处理技术,实现了对几十个上游运营商返回的上万个错误信息的自动归类和相似性匹配,准确率高达87%左右,极大地简化了人力成本,降低了订单生产过程中的时间成本。

直播课预告

6月9日晚20:00,百度NLP产品经理将带来精彩直播讲解,剖析NLP产业应用开发不能不知的三个坑及相应解决方案,解读EasyDL如何实现NLP产业应用落地,并手把手带您进行项目实战。

欢迎大家扫码进群

获取课程链接!

入群福利

  • 获取6月9日直播课链接

  • 参与「新闻资讯分类」「电商评论观点分析」实战营,15分钟轻松训练高精度的NLP模型,更有精美礼品与证书免费发放

更多阅读

  • 论文链接

https://arxiv.org/pdf/2107.02137.pdf

  • Demo 链接

https://wenxin.baidu.com/younger/apiDetail?id=20006

↓↓阅读原文,报名体验

以上是关于一举刷新 54 个中文 NLP 任务基准,大模型加持下的EasyDL有多强?的主要内容,如果未能解决你的问题,请参考以下文章

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

NLP中的对话机器人——预训练基准模型

CNN如何用于NLP任务?一文简述文本分类任务的7个模型

自然语言处理全家福:纵览当前NLP中的任务数据模型与论文

NLP的比赛和数据集

入门 | CNN也能用于NLP任务,一文简述文本分类任务的7个模型