论文泛读169少数线索:中文的小样本学习评估基准

Posted 及时行樂_

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文泛读169少数线索:中文的小样本学习评估基准相关的知识,希望对你有一定的参考价值。

贴一下汇总贴:论文阅读记录

论文链接:《FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark》

一、摘要

预训练语言模型 (PLM) 在自然语言理解任务中取得了巨大成功。虽然针对英语等语言已经广泛探索和比较了不同的学习方案——微调、零样本和少样本学习——但在中文方面,公平、全面地评估和比较这些方法的工作相对较少。这项工作首先介绍了中文小样本学习评估基准(FewCLUE),这是中文第一个综合性小样本评估基准。它包括九个任务,从单句和句子对分类任务到机器阅读理解任务。鉴于小样本学习性能的高方差,我们提供了多个训练/验证集,以促进对小样本建模的更准确和稳定的评估。提供了每项任务最多包含 20,000 个额外样本的未标记训练集,使研究人员能够探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL),并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明:1)所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 允许研究人员探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL),并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明:1)所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 允许研究人员探索使用未标记样本的更好方法。接下来,我们实现了一组最先进的 (SOTA) 小样本学习方法(包括 PET、ADAPET、LM-BFF、P-tuning 和 EFL),并将它们的性能与微调和零-新构建的FewCLUE基准上的镜头学习方案。我们的结果表明:1)所有五种小镜头学习方法都表现出比微调或零镜头学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 并在新构建的FewCLUE基准上将它们与微调和零样本学习方案的性能进行比较。我们的结果表明:1)所有五种少样本学习方法都表现出比微调或零样本学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在 并在新构建的FewCLUE基准上将它们与微调和零样本学习方案的性能进行比较。我们的结果表明:1)所有五种少样本学习方法都表现出比微调或零样本学习更好的性能;2)五种方法中,PET是表现最好的少拍方法;3)小样本学习性能高度依赖于特定任务。我们的基准测试和代码可在这里:github

二、结论

本文介绍了国内第一个系统全面的少拍学习基准FewCLUE。它有三种不同类型的NLU任务,总共包括九个任务。我们还提供多种训练和验证集来处理少拍学习中的不稳定性问题。除了用于排行榜的私有测试集,我们还提供了可用于研究目的的公共测试集。此外,大量未标记数据可用于无监督和半监督学习。在基准上评估不同的学习方法,包括微调、少镜头学习和使用预训练语言模型的零镜头学习。我们还报告人的表现,以更好地理解任务的原生和模型的潜力。FewCLUE的实验结果表明,我们的任务对模型具有挑战性,并为未来的研究留下了很大的空间。我们计划在2021-08-17使用五个拆分更新实验结果,并获得平均分数。

与此同时,我们还将进行更多的实验,例如使用额外的步骤(而不是随机初始化)来初始化未使用令牌的嵌入,以进行P调优。

三、方法

  • 我们构建了第一个系统、全面的少拍(few-shot)中文理解评测基准,提供了强有力的基线和人性化的评测。我们相信,该基准将有助于中国NLU的少拍(few-shot)学习研究。
  • 为了适应不同的少镜头学习场景,我们采用了统一的少镜头学习评估方法,包括各种训练/验证分割,以实现准确和稳定的评估,并带有额外的未标记数据。我们认为这在评估不同的少拍学习范例中至关重要。
  • 基于我们的基准,我们发现基于模板的方法(Schick和Sch utze,2021aSchick和Sch utze,2021b)可以获得比基于微调的方法(Liu等人,2021)更好的性能,这可以为NLP领域的研究人员和实践者提供一些指导和有前途的研究方向。此外,虽然自动生成模板的方法有很多,但我们的实验表明,手动创建的模板是最好的。

以上是关于论文泛读169少数线索:中文的小样本学习评估基准的主要内容,如果未能解决你的问题,请参考以下文章

美团获得小样本学习榜单FewCLUE第一!Prompt Learning+自训练实战

论文泛读189研究文本简化评估

论文泛读189研究文本简化评估

论文速递ECCV2022 - 密集高斯过程的小样本语义分割

搜索与问答——NeurIPS 2021BEIR:信息检索模型零样本评估的异构基准

论文泛读135脱离上下文:基于方面情感分析的上下文建模的新线索