斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!

Posted 新智元

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!相关的知识,希望对你有一定的参考价值。

新智元AI技术峰会倒计时4


新智元将于3月27日在北京泰富酒店举办“聚焦智能云和AI芯片发展,重塑未来AI世界格局。


同时,新智元将现场权威发布若干AI白皮书,聚焦产业链的创新活跃,助力中国在世界级的AI竞争中实现超越。

参会二维码:

斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!




  新智元报道 

来源:stanford

编辑:肖琴、大明

【新智元导读】通用语言理解评估基准GLUE排行榜再次刷新,斯坦福大学的Snorkel MeTaL综合得分最高,排名第一,并在其中4项任务刷新了最高性能。该研究整合多个监督信号,将调优发挥到极致!


NLP 领域的进展日新月异,这话并非夸张。


新智元前不久报道了微软提出一个新的,结合了 BERT 的优点,并在 10 大自然语言理解任务上超越了 BERT,在多个流行的基准测试中创造了新的最先进的结果。


今天,通用语言理解评估基准 GLUE 的排行榜再次被刷新,斯坦福 Hazy Research 的模型 Snorkel MeTaL 的 GLUE 基准得分达到 83.2,排名第一位。


斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!

GLUE排行榜前10


模型基于预训练的 BERT-Large,创新之处在于它在一个 Massive Multi-Task Learning (MMTL) 设置中整合了多种监督信号,包括传统监督,迁移学习,多任务学习,弱监督和 ensembling,一点点地将性能推向了最高。


斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!

Snorkel MeTaL在GLUE Benchmark上的得分


Snorkel MeTaL 在 GLUE 基准测试中达到了新的 state-of-the-art 分数,并且在 9 个任务中的 4 个 (CoLA, SST-2, MRPC, STS-B) 实现了新的最高性能。


该研究正在进行中,作者表示 MMTL 包的代码版本将于 2019 年 4 月在 Snorkel MeTaL v0.5 中发布。


作者在今天发表的博客文章中详述了他们是如何做到的。


在模型中注入监督信号


解决监督学习问题需要三个组件:模型、硬件和训练数据。


多亏了研究和开源社区的蓬勃发展,最先进的模型通常只需要一次 pip install (Google,Hugging Face,OpenAI)!多亏了云计算,最先进的硬件也变得越来越容易访问了:一台有 8 个最新最强大的 GPU 的虚拟机,就可以在几分钟内按需启动 (感谢 AWS 和谷歌云)!


然而,要收集足够多的标记数据,在这些硬件上训练这些开源模型,并不像看上去的这么简单。事实上,这个障碍已经成为大多数机器学习应用的主要瓶颈。由于这个原因,越来越多的从业者开始转向更为间接的方式,即将监督信号注入他们的模型中


斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!

最先进的模型架构和硬件正变得越来越商品化,只需几行代码即可访问。然而,获得最先进的训练数据仍然需要相当大的灵活性和创造性。


看到这一趋势,我们开始着手打造一个以监督为主的框架。


我们的目标是尽可能容易地支持目前常用的许多潜在的监督信号来源,包括传统监督、转移学习、多任务学习和弱监督。


我们将这种设置称为大规模多任务学习 (Massive Multi-Task Learning, MMTL),其中有大量不同类型、粒度和标签精度的任务和标签。为了指导我们的开发过程,我们使用了 GLUE Benchmark 作为评估。


GLUE Benchmark 包含 9 个自然语言理解任务 (例如,自然语言推理、句子相似性等)。每个示例都有自己独特的一组示例和标签,大小从 635 个训练示例 (WNLI) 到 393k (MNLI) 不等。


为了保持我们对 ML 监督方面的关注,我们使用了普通硬件 (AWS p3.8xlarge 实例) 和一个非常简单的模型架构 (一个共享的 BERT 模块加上单层线性 task heads)。


因此,我们看到的每一项改进都来自于利用一个新的信号来源,或者更聪明地混合了已有的监督。


本文接下来的部分,我们将通过添加越来越多的监督信号 (supervision signal),逐步了解我们在其中一项任务 RTE (Recognizing Textual Entailment, 文本蕴含识别) 中的得分是如何提高的。


当然,这项工作才刚刚开始;我们希望在 4 月份发布我们的开源框架时,其他人将找到新的和创造性的方法,将更多的信号引入到这个框架中,并进一步推动最新技术的发展!


信号 1:传统监督


RTE 数据集附带一个有标签的训练集,包含 2.5k 个示例。该任务的目标是指出第二句是否由第一句所暗示;这被称为文本蕴含任务或自然语言推理 (NLI)。


斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!

来自 RTE 数据集的示例句子对。标签指示如果句子 1 为真,句子 2 是否必须为真。


我们首先考虑了使用众所周知的 NLP 架构的 baseline。在这个数据集上训练一个标准的 biLSTM 可以得到 57.4 的精度。在顶部添加 ELMo embeddings 一个注意力层,可以将精度提升到 58.9。不幸的是,不管模型架构多漂亮,我们的模型只能从 2.5k 的示例中学到这么多。


我们需要更多信号。

以上是关于斯坦福新模型刷新纪录:自然语言理解 GLUE 排行榜最高分!的主要内容,如果未能解决你的问题,请参考以下文章

斯坦福新深度学习系统 NoScope:视频对象检测快1000倍

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

ChineseGLUE:为中文NLP模型定制的自然语言理解基准

四两拨千斤!AI大牛周明率澜舟团队刷新CLUE新纪录,轻量化模型孟子一鸣惊人...

华为云刷新深度学习加速纪录:128块GPU,10分钟训练完ImageNet

TIOBE 7月排行榜,R语言创造新纪录