NLP应用于司法系统(综述)
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了NLP应用于司法系统(综述)相关的知识,希望对你有一定的参考价值。
参考技术A司法人员经常考虑使用rule-based和symbol-based方法解决任务,NLP研究者主要考虑data-driven和embedding方法。
在这篇文章中就主要讨论Legal AI的历史、现况、和未来的研究方向。
进行了一些试验来对现有的工作进行更有深度的分析,分析他们的优缺点,并揭示一些未来的研究方向。
可解释性强的symbolic models的效率不高,embedding-methods有更好的性能,但通常没有好的解释性,在一些道德相关的问题上有比较大的问题:经典性别和种族偏见。
我们总结了symbol-based methods和embedding-based方法共同面临的三个主要的挑战:
本文的研究贡献主要如下:
字和词嵌入很重要。
直接从司法案情描述中学习出专业词汇很困难。为了克服这种困难,可以同时捕捉 语法信息 和 司法知识 。
knowledge graph methods在司法领域很有前景,但是在实际使用之前,还是有两个主要的挑战:
这两种挑战让LegalAI通过embedding进行知识建模不平凡(non-trivial)。研究者在未来会尝试去克服这些困难。
预训练的语言模型(Pretrained language model,PLM)比如BERT,最近集中于很多NLP的领域。鉴于预训练模型的成功,在LegalAI中使用预训练模型是一个很合理很直接的选择。但是在司法文本中,这里还有一些不同,如果直接使用这些PLM会导致不好的性能。这些不同就来自于司法文本中所包含的术语和知识。为了解决这些问题,Zhong(2019)提出了一个中文司法文档的预训练模型,包括民事和(civil)刑事(criminal)案件的文档。针对司法领域设计的PLM给LegalAI任务提供了一个更有质量的baseline系统。我们在实验中对比不同的BERT模型应用于LegalAI任务。
对于在未来探索LegalAI中的PLM,研究者可以把目标放在整合knowledge进入PLM。整合knowledge进入预训练模型可以帮助推理司法概念之间。很多工作已经做了,去把general domain融入模型。
symbol-based methods也被叫做structured prediction methods。
符号化的司法知识包括:事件(events)和关系(relationship),这些可以提供可解释性。
深度学习方法可以用于提高symbol-based methods的性能。
信息提取(information extraction,IE)已经被广泛地在NLP中被研究。IE强调从文本中提取有价值的信息,一些技术比如:实体识别(entity recognition),关系提取(relation extraction),事件提取(event extraction)。
为了更好的使用司法文本,研究者尝试使用本体论(ontology)或者全球一致性(global consistency)在LegalAI的命名实体识别(named entity recognition)任务中。为了从司法文本中提取关系和事件,研究者尝试去使用不同的方法,包括:人工规则(hand-crafted rules),CRF(不知道这是啥),联合模型比如SVM,CNN,GRU,或者(scale-free identifier network)(不知道这是啥)。
现存的工作已经做出了很大努力去改善IE的效果,但我们需要跟多的注意力放在怎么好好利用这些提取出来的信息。这些提取出来的符号有司法基础(legal basis)而且可以对司法应用提供可解释性。所以我们不能只把目标定在方法的性能。在这里我们展示两个利用提取出的符号来提高LegalAI可解释性的例子:
在未来的工作中,我们需要更多注意,应用提取的信息在LegalAI任务中。这些信息的利用取决于特定任务的要求,而且这些信息可以提供更多的可解释性。
除了NLP中的共同的symbol,LegalAI有独有的symbol,称作legal elements。提取legal element专注于提取一些关键元素,比如:某个人是不是被杀了,或者某个东西是不是被偷了。这些元素是犯罪活动(crime)的基本组成元素,而且我们可以基于这些元素,直接给犯罪者定罪。利用这些元素,不仅可以给判决预测任务带来直接的监管信息,而且可以让模型的预测结果更加可解释。
从这个例子可以看出,提取元素可以决定判决结果。这些元素对于下游任务很有用。
为了更深度分析基于元素的symbol,Shu(2019)构造了用于提取元素的三个数据集:离婚纠纷,劳工纠纷,贷款纠纷。这些数据集需要我们检测相关元素是否被满足,并把这个任务规范化为一个多标签的分类任务。为了展示现存方法在element extraction上的性能,我们进行了一系列实验,如下表格所示。
我们实现了NLP中几个经典的encoding模型,为了检验elemetnt extraction。包括TextCNN,DPCNN,LSTM,BiDAF,BERT。我们用了两种不同的BERT预训练参数(原始BERT、用中文司法文档训练的BERT:BERT-MS)。从这个结果中可以看到,在广泛领域(general domain)上的预训练模型效果不如在特定领域(domain-specific)训练的预训练模型,这就是在LegalAI中推进PLM的必要性。paper的以下部分,我们就会使用在legal documents上预训练的BERT来达到一个更好的表现。
从目前的element extraction的结果来看,现存的方法已经达到了一个很好的性能,但是在相关的应用上仍然不够。这些元素可以被看作是预先定义好的legal knowledge并且帮助下游任务。怎么改善element extraction也是需要进一步研究。
介绍几个典型的应用:
Legal Judgment Prediction
Similar Case Matching
Legal Question Answering
Legal Judgment Prediction 和Similar Case Matching可以看作民事法律(Civil Law)和普通法系(Common Law System,英美法系,普通法系)判决的核心功能。Legal Question Answering可以给不懂法律的人提供咨询服务。因此探究这三个任务可以基本上涵盖LegalAI的大部分方面。
Legal Judgment Predction(LJP)在民事法律体系中很中国要。在民事法律体系中,判决结果是基于事实和法律条文。LJP主要关心怎么通过 事实描述 和民法中 相关条文 ,来预测判决结果。
下面将介绍LJP方面的研究进展,和未来的研究方向。
早期的工作包括:使用统计和数学方法在特定场景下分析司法案件。同时结合数学方法和司法规则让预测结果具有可解释性。
为了LJP的进展,Xiao(2018)提出了一个大规模的中文刑事判决预测数据集,C-LJP(c指chinese)。这个数据集包含2.68 million个司法文档,是一个LJP的有效的benchmark。C-LJP包含三个子任务:相关文章relevant articles,应用的指控applicable charges,刑期term of penalty。前两个可以被formalize为多标签分类任务,最后一个是回归任务。英文的LJP也有,但是规模比较小。
随着NLP发展,研究者开始考虑在LJP中使用NLP任务。这些工作可以分为两个主要方向:1. 使用更新的模型提高性能:Chen(2019)用门机制提高预测刑期(term of penalty)的性能,Pan(2019)提出使用多尺度(multi-scale)的attention,来处理含有多个被告的案件。除此之外,其他的研究者探究怎么使用legal knowledge和LJP的一些属性。Luo(2017)在fact和law articles之间使用attention来帮助预测可应用的指控(applicable charges)。Zhong(2018)使用拓扑图来利用不同LJP不同任务之间的关系。Hu(2018)整合了是个可辩别的(discriminative)司法属性(legal attributes)来帮助预测低频率的指控。
一系列在C-LJP上的实验
实验结果:
可以看到很多模型在预测高频率指控(high-frequency charges)和文章(articles)中达到了很好的性能。 但是在低频率的标签上表现不好,表现为micro-F1和macro-F1之间有很大的差距。
Hu(2018)展示了把few-shot learning应用于LJP。然而他们的模型需要额外的人工添加一些属性信息,这就导致很费劲,而且难以在其他的数据集上应用。除此之外,我们发现BERT的性能不够好,因为在一些模型参数较少的模型上没有什么提升。主要的原因是司法文本的长度一般较长,但是BERT最长的文本长度是512。根据统计数据,最长的司法文本长度是5w多字,15%文档场都超过了512。因此LJP需要一些文本理解(document understanding)和推理技术(reasoning technique)。
虽然embedding-based方法已经有很好的效果了,但是在LJP中我们需要结合embedding-based和symbol-based。拿TopJudge作为一个例子,这个模型规范化LJP任务中(symbol-based part)的拓扑序, 并使用TextCNN用于编码fact description。 (有点好奇这个TopJudge里是怎么通过symbol-based搞一个拓扑序的?对模型是怎么样有用的。)通过结合symbol-based和embedding-based,TopJudge达到了一个很好的效果。通过对比TextCNN和TopJudge可以发现加judgements 的顺序(order)可以提升性能。
为了更好的LJP性能。 一些挑战需要研究者来探索:
在使用Common Law System(这好像可以解释为卷宗法律系统,通过相似的案件来判案)的国家中,比如美国,加拿大,印度,判决决策是通过相似案件和有代表性的(representative)案件来进行的。因此,怎么识别出相似的案件,时Common Law System中所最需要的。
为了更好的预测Common Law System的判决结果,Similar Case Matching(SCM)成了LegalAI的一个重要的话题。SCM中对于相似度(similarity)的定义也是多种多样。SCM需要从不同的信息粒度(information of different granularity)来建模(modeling)案件之间的关联(relationship),比如事实级别(fact-level),事件级别(event-level),和元素级别(element-level)。换一种话说,就是SCM是语义匹配的一种特殊形式(semantic matching),这个对于提取司法信息(legal information retrieval)有帮助。
传统的IR方法集中于使用统计方法来衡量term-level 的相似性,比如TF-IDF。除此之外,其他研究者还尝试利用元信息(meta-information),来捕捉语义相似度。许多机器学习方法也被应用于IR,比如SVD或者矩阵分解(factorization),随着深度学习发展,多层感知机(multi-layer perceptron),CNN,RNN也被应用于IR。
已经有一些LegalIR的数据集:COLIEE,CaseLaw,CM。COLIEE和CaseLaw都被用于从大的语料库中提取最相关的文章。CM中的数据样例提供了三个司法文档用于计算相似度。这些dataset都提供了一个benchmark。许多研究者专注于建立易用的司法搜索引擎(legal search engine,司法版google)。
以计算语义级别(semantic-level)的相似度为目标,深度学习方法被用于LegalIR。Tran(2019)提出了一个CNN-based model,结合了文档级别(document-level)和句子级别(sentence-level)的池化(pooling),在COLIEE上达到了SOTA的效果。
为了对当前的LegalIR进展有一个更好的理解视角,我们使用CM(Xiao 2019)来进行实验。CM包含8964个三元组,每个三元组包含三个司法文档(A, B, C)。CM的任务就是分辨出B和C哪个更接近A。我们实现了几个不同类型的baseline:
我们发现,能够捕捉语义信息的模型性能超过了TF-IDF,但是应用到SCM还不够。如Xiao(2019)所说,主要的原因是司法人员认为数据集中的elements定义了司法案件之间的相似度。司法人员会比较看重两个案件是否有相关的元素(elements)。只考虑term-level和semantic-level的相似度是不足够的。
更深的SCM研究有以下几个方向需要努力:
Legal Question Answering(LQA):司法方面的问答系统。
司法专业人员的一个很重要的任务是向不懂法的人提供可靠的、高质量的司法咨询服务。
LQA中,问题的形式会有比较大的变化:有的问题强调对于司法概念的解释,有的问题主要考虑对于特定案件的分析。另外,从专业人员和非专业人员口中表达专业词汇可能会有差别。这些问题给LQA带来了很多挑战。
LegalAI中有很多数据集,Duan(2019)提出CJRC,一个司法阅读理解数据集,和SQUAD 2.0有相似的格式,包括span extraction(不懂),yes/no questions,unanswerable questions。另外COLIEE包含500个yes/no questions。另外,律师资格考试(bar exam)对于律师来说是一个很重要的考试,因此律师资格考试数据集会比较难,因为需要专业的司法知识和技能。
除了这些数据集之外,研究者还用了很多方法在LQA上。rule-based systems在早期的研究中效果显著。为了更好的性能,研究者利用更多的信息,比如概念解释(explanation of concepts)或者把相关文档格式化为图(formalize relevant documents as graph)来帮助推理。机器学习和深度学习方法比如CRF,SVM,CNN也用于LQA。但是,大多数现存方法只在小数据集上进行了实验。
我们选择JEC-QA来作为实验的数据集,因为这是从律师资格考试中收集到的最大的数据集,保证他的困难程度。JEC-QA包含了28641个多项选择、多项回答问题,还包含了79433个相关的文章来帮助回答问题。JEC-QA把问题分为知识驱动问题(knowledge-driven questions, KD-Questions)和案件分析问题(case-analysis questions),并且提供了人类的表现。我们实现了几个有代表性的QA模型,包括BiDAF、BERT、Co-matching、HAF,这些实验结果在表6中呈现。
对比发现,这些模型不能在回答这些司法问题上跟回答open-domain的问题时有一样好的效果。在LQA上,模型和人类之间有巨大的差距。
为了有更好的LQA方法,这里有几个困难需要克服:
除了这篇文章中的,还有其他的LegalAI任务:司法文献概述(legal text summarization),从司法合同中进行信息提取(information extraction from legal contracts)。不管怎样,我们都能够应用embedding-based方法来提高性能,结合symbol-based方法提高可解释性。
三个主要的挑战:
未来的研究者可以主要结合embedding方法和symbol方法解决这三个挑战。
对于一些任务,还没有数据集,或者数据集不够大。我们可以尝试构建规模大、质量高的数据集,或者使用few - shot / zero - shot learning方法来解决这些问题。
最新综述!NLP中的Transformer预训练模型
点上方人工智能算法与Python大数据获取更多干货
在右上方 ··· 设为星标 ★,第一时间获取资源
仅做学术分享,如有侵权,联系删除
转载于 :机器之心
在如今的 NLP 领域,几乎每项任务中都能看见「基于 Transformer 的预训练语言模型(T-PTLM)」成功的身影。这些模型的起点是 GPT 和 BERT。而这些模型的技术基础包括 Transformer、自监督学习和迁移学习。T-PTLM 可使用自监督学习从大规模文本数据学习普适性的语言表征,然后将学到的知识迁移到下游任务。这些模型能为下游任务提供优质的背景知识,从而可避免从头开始训练下游任务。
这篇详尽调查 T-PTLM 的综述论文首先将简要介绍自监督学习。接下来将解释多个核心概念,包括预训练、预训练方法、预训练任务、嵌入和下游任务适应方法。接下来,文章将为 T-PTLM 给出一种新的分类方法,然后简要介绍多种不同的基准,包括内部基准和外部基准。研究者还归纳总结了一些适用于 T-PTLM 的软件库。最后讨论了一些可能有助于进一步改进这些模型的未来研究方向。
论文地址:https://arxiv.org/pdf/2108.05542.pdf
研究者相信,这篇全面详尽的综述论文能作为一份很好的参考资料,帮助读者了解 T-PTLM 的相关核心概念和近期研究进展。
引言
基于 Transformer 的预训练语言模型(T-PTLM)具备从大规模无标注文本数据学习通用语言表征并将所学知识迁移到下游任务的能力,因此已经在 NLP 领域取得了巨大的成功,这类模型包括 GPT-1、BERT、XLNet、RoBERTa、ELECTRA、T5、ALBERT、BART 和 PEGAUSUS。在更早期,NLP 系统大都采用了基于规则的方法,之后取而代之的是机器学习模型。机器学习模型需要特征工程,而特征工程又需要领域专业知识并且需要较长的时间。
随着 GPU 等更好的计算机硬件以及 Word2Vec 和 Glove 等词嵌入方法的出现,CNN 和 RNN 等深度学习模型在构建 NLP 系统方面得到了更广泛的应用。这些深度学习模型的主要缺点是除了词嵌入之外,需要从头开始训练模型。从头开始训练这类模型需要大量有标注实例,而生成这些实例的成本很高。但是,我们希望仅使用少量有标注实例来获得表现良好的模型。
迁移学习让我们可以将在源任务上学习到的知识很好地复用到目标任务上。在这其中,目标任务应该与源任务相似。基于迁移学习的思想,计算机视觉领域的研究者已在使用 ImageNet 等大规模有标注数据集来训练大型 CNN 模型。这些模型学习到的图像表征对所有任务来说都是普适的。然后,这些大型预训练 CNN 模型可以适应下游任务,具体做法是添加少数特定于任务的层,然后在目标数据集上进行微调。由于预训练 CNN 模型能为下游模型提供很好的背景知识,因此它们在许多计算机视觉任务上取得了巨大的成功。
CNN 和 RNN 等深度学习模型难以建模长期上下文以及学习具有局部性偏差(locality bias)的词表征。此外,由于 RNN 按顺序处理输入(逐词处理),因此只能有限度地使用并行计算硬件。为了克服现有深度学习模型的这些缺点,Vaswani et al. 提出了完全基于自注意力的深度学习模型:Transformer。相比于 RNN,自注意力支持更高度的并行化,并且还能轻松地建模长期上下文,因为输入序列中的每个 token 都会关注其它所有 token。
Transformer 包含一些堆叠的编码器和解码器层。在堆叠编码器和解码器层的帮助下,Transformer 可以学习到复杂的语言信息。在 NLP 领域,生成大量有标注数据的成本非常高,也非常耗时。但是,大量无标注文本数据却很容易获得。在计算机视觉社区使用基于 CNN 的预训练模型所取得的成功的感召下,NLP 研究社区将 Transformer 和自监督学习的能力组合到一起,开发出了 T-PTLM。自监督学习让 Transformer 可以使用由一个或多个预训练任务提供的伪监督进行学习。
GPT 和 BERT 是最早的 T-PTLM,它们分别是基于 Transformer 解码器和编码器层开发的。之后,又诞生了 XLNet、RoBERTa、ELECTRA、ALBERT、T5、BART 和 PEGAUSUS 等模型。其中,XLNet、RoBERTa、ELECTRA 和 ALBERT 是基于 BERT 的改进模型;T5、BART 和 PEGAUSUS 是基于编码器 - 解码器的模型。
Kaplan et al. 表明只需增加 T-PTLM 模型的规模就能带来性能的提升。这一发现推动了大规模 T-PTLM 的发展并催生了 GPT-3 (175B)、PANGU (200B)、GShard (600B) 等包含上千亿参数的模型,而 Switch-Transformers (1.6T) 的参数量更是达到了万亿级。
T-PTLM 在通用英语领域取得成功之后,又开始进军其它领域,包括金融、法律、新闻、编程、对话、网络、学术和生物医学。T-PTLM 还支持迁移学习,即通过在目标数据集上进行微调和即时调整,可让这些模型适用于下游任务。本文将全面回顾与 T-PTLM 有关的近期研究成果。这篇综述论文的看点总结如下:
第 2 节将简单介绍自监督学习,这是 T-PTLM 的核心技术。
第 3 节将介绍与 T-PTLM 相关的一些核心概念,包括预训练、预训练方法、预训练任务、嵌入和下游适应方法。
第 4 节将给出一种针对 T-PTLM 的新型分类法。这种分类法考虑了四大方面,即预训练语料库、架构、自监督学习类型和扩展方法。
第 5 节将给出一种针对不同下游适应方法的新型分类法并将详细解释每个类别。
第 6 节将简要介绍多种用于评估 T-PTLM 进展的基准,包括内部基准和外部基准。
第 7 节将给出一些适用于 T-PTLM 的软件库,从 Huggingface Transformers 到 Transformer-interpret。
第 8 节将简单讨论一些可能有助于进一步改进这些模型的未来研究方向。
自监督学习(SSL)
监督学习的缺点总结如下:
严重依赖人类标注的实例,而获取这些实例耗时费力。
缺乏泛化能力,容易出现虚假相关的问题。
医疗和法律等许多领域缺乏有标注数据,这会限制 AI 模型在这些领域的应用。
难以使用大量免费可用的无标注数据进行学习。
SSL 与监督学习和无监督学习等其它流行学习范式具有一些相似性。SSL 与无监督学习的相似之处是它们都不需要人类标注的实例。但是,它与无监督学习也有不同之处:a) SSL 需要监督,而无监督学习没有监督;b) 无监督学习的目标是识别隐藏模式,而 SSL 的目标是学习有意义的表征。SSL 与监督学习的相似之处是学习范式时都需要监督。但是,它与监督学习也有不同之处:a) SSL 会自动生成标签,而无需任何人类干预;b) 监督学习的目标是提供特定于任务的知识,而 SSL 的目标是向模型提供通用知识。
SSL 的目标总结如下:
学习通用语言表征,这能为下游模型提供优良的背景。
通过学习大量免费可用的无标注文本数据来获得更好的泛化能力。
自监督学习可大致分为生成式 SSL、对比式 SSL 和对抗式 SSL 三种。
T-PTLM 核心概念
预训练
预训练能带来以下一些优势:
通过利用大量无标注文本,预训练有助于模型学习通用语言表征。
只需增加一两个特定的层,预训练模型可以适应下游任务。因此这能提供很好的初始化,从而避免从头开始训练下游模型(只需训练特定于任务的层)。
让模型只需小型数据集就能获得更好的表现,因此可以降低对大量有标注实例的需求。
深度学习模型由于参数数量大,因此在使用小型数据集训练时,容易过拟合。而预训练可以提供很好的初始化,从而可避免在小型数据集上过拟合,因此可将预训练视为某种形式的正则化。
预训练的步骤
预训练一个模型涉及以下五个步骤:
准备预训练语料库
生成词汇库
设计预训练任务
选择预训练方法
选择预训练动态
预训练语料库
图 1:预训练语料库
图 2:预训练方法,其中 PTS 是从头开始型预训练、CPT 是持续型预训练、SPT 是同时型预训练、TAPT 是任务自适应型预训练、KIPT 是知识继承型预训练
预训练任务
闲聊语言建模(CLM)
掩码语言建模(MLM)
替代 token 检测(RTD)
混洗 token 检测(STD)
随机 token 替换(RTS)
互换语言建模(SLM)
翻译语言建模(TLM)
替代语言建模(ALM)
句子边界目标(SBO)
下一句子预测(NSP)
句子顺序预测(SOP)
序列到序列语言模型(Seq2SeqLM)
去噪自动编码器(DAE)
嵌入
图 8:T-PTLM 中的嵌入
分类法
为了了解以及跟踪各种 T-PTLM 的发展,研究者从四个方面对 T-PTLM 进行了分类,即预训练语料库、模型架构、SSL 类型和扩展方法。如下图 9 所示:
图 9:T-PTLM 的分类法。
下游适应方法
一旦完成语言模型的训练,就可将其用于下游任务了。将预训练后的语言模型用于下游任务的方式有三种:基于特征的方法、微调和基于提示的微调(prompt-based tuning)。
如下图 10 所示,基于特征的方法涉及到根据语言模型生成上下文的词嵌入,然后在针对特定下游任务的模型中将它们用作输入特征。微调涉及到根据下游任务,通过尽量降低针对特定任务的损失来调整模型权重。
图 10:下游适应方法。
评估
在预训练阶段,T-PTLM 会获取预训练语料库中编码的知识。这里的知识包括句法、语义、事实和常识。对于 T-PTLM 的效果,评估方式有两种,即内在方式和外在方式。见下图 11。
内在评估方式是通过探测 T-PTLM 中编码的知识进行评估,而外在评估方式则是评估 T-PTLM 在真实世界下游任务中的效果如何。内在评估方式可让我们了解 T-PTLM 在预训练阶段获得的知识,这有助于我们设计更好的预训练任务,使得模型可以在预训练阶段学习到更多知识。
图 11:用于评估 T-PTLM 研究进展的基准。
有用的软件库
研究者还归纳总结了一些适用于 T-PTLM 的常用软件库。其中,Transformers 和 Fairseq 等软件库适用于模型训练和评估。SimpleTransformers、HappyTransformer、AdaptNLP 等则构建于 Transformer 软件库之上,可让用户仅使用少量代码就实现更轻松的训练和评估。FastSeq、DeepSpeed、FastT5、OnnxT5 和 LightSeq 等则可用于提升模型的推理速度。Ecco、BertViz 和 exBERT 都是可视化分析工具,可用于探索 Transformer 模型的层。Transformers-interpret 和 Captum 则能用于解释模型决策。
表 11:适用于 T-PTLM 的软件库。
讨论和未来方向
更好的预训练方法
仅使用 SSL 来训练模型(尤其是带有成千上万亿参数的大模型)的成本非常高。知识继承型预训练(KIPT)等全新的预训练方法涉及到 SSL 和知识蒸馏。SSL 让模型可以学习预训练语料库中可用的知识,而知识蒸馏则让模型可以学习已经编码在已有预训练模型中的知识。由于在通过知识蒸馏的预训练阶段,模型可获得额外的知识,因此 a) 模型可以更快速地收敛并由此缩短预训练时间,b) 相比于仅使用 SSL 预训练的模型,在下游任务上的表现会更好。研究社区必须重点关注开发 KIPT 等更好的预训练方法,让模型获得更多知识以及降低预训练时间。
样本高效型预训练任务
如果一个预训练任务能最大化地利用每个训练实例,那么就可以说该预训练任务是样本高效的,即它应该能在训练实例中的所有 token 上获得定义。样本高效型预训练任务能使预训练的计算效率更高。最常用的预训练任务 MLM 的样本效率就不太高,因为其仅涉及到一个 token 子集,即掩码 token,其占总 token 数的 15%。RTD、RTS 和 STD 等预训练任务可被视为是开发样本高效型预训练任务的早期尝试。这三种预训练任务都定义在每个训练实例的所有 token 之上,即它们涉及到识别每个 token 是否被替代、随机替换或混洗。未来应该还将出现使计算效率更高的样本高效型预训练任务。
高效模型
由于模型尺寸较大并且需要大量无标注的文本数据,因此预训练 T-PTLM 的成本也很高。但是,较长的预训练时间对环境并不友好,因为这个过程会释放二氧化碳;而在生物医学等许多领域,也没有大规模的无标注文本数据。近期,在 BERT 模型基础上进行全新改进的 DeBERTa 等模型实现了比 RoBERTa 模型更好的性能,尽管其仅使用了 78 GB 数据进行预训练,这只是预训练 RoBERTa 模型所用的数据量的一半。类似地,ConvBERT 凭借全新的混合注意力模块,仅使用 ELECTRA 模型四分之一的预训练成本就取得了更优的表现。为了降低预训练的数据量和训练成本,人们需要 DeBERTa 和 ConvBERT 这样的高效模型。
更好的位置编码机制
自注意力机制是置换不变型的方法,不存在位置偏差。使用绝对或相对位置嵌入,可以提供位置偏差。此外,绝对位置嵌入可以预先确定或学习到。但是,这两种方法各有优缺点。绝对位置嵌入会有泛化问题,但却很容易实现。不同于绝对位置,相对位置嵌入能稳健地应对序列长度变化,但却难以实现,性能也更差。我们还需要全新的位置编码机制,比如 CAPE,其将绝对和相对位置嵌入的优势组合到了一起。
改进现有的 T-PTLM
BERT 和 RoBERTa 等 T-PTLM 已经在许多 NLP 任务上取得了优良的结果。近期的研究表明,通过基于对抗或对比预训练任务的持续预训练注入句子层级的语义,还可以进一步改进这些模型。举个例子,Panda et al. 表明使用混洗 token 检测目标的持续预训练可提升 RoBERTa 模型在 GLUE 任务上的性能,因为其允许模型学习更连贯的句子表征。类似地,使用对比预训练目标的持续性预训练可以提升 T-PTLM 在 GLUE 任务上的性能以及多语言 T-PTLM 在 Mickey Probe 上的表现。为了将其扩展到其它单语言和特定领域的 T-PTLM,还需要进一步的研究。
超越朴素的微调
为了将预训练模型用于下游任务,微调是最常用的方法。但是,朴素的微调的主要缺点是其会改变预训练模型中的所有层,因此我们需要为每个任务维持另一个副本,这会增加部署成本。为了以一种参数高效的方式将预训练模型用于下游任务,人们提出了 Adapters 和基于剪枝的微调等方法。
举个例子,adapter 是添加到每个 Transformer 层的针对特定任务的小层。而在下游任务适应期间,仅更新 adapter 层的参数,Transformer 层的参数保持不变。此外,Poth et al. 表明 adapter 也可用于中间微调。近期,基于提示的微调(prompt-based tuning)方法在参数效率方面取得了明显更优的表现,并得到了研究社区的关注。举个例子,Prefix-tuning 等基于提示的微调方法仅需要 0.1% 的针对特定任务的参数,而基于 adapter 的微调则需要 3% 的针对特定任务的参数。
基准评测
在最后四层中,人们引入了很多基准来评估通用型和领域特定型预训练模型的进展。除了英语之外,也出现了一些用于评估其它单语言和多语言模型进展的基准。但是,现有的基准不足以覆盖所有场景。举个例子,还没有基准用于评估 a) 紧凑预训练模型的进展,b) 预训练模型的稳健性,c) 针对社交媒体以及学术等专业领域开发的 PTLM。
近日,Explainboard 等排行榜不再只是使用已有基准等单一指标评估进展,也会深挖或分析模型的长项和短板。这类排行榜应该也能扩展到其它领域。此外,FewGLUE、FLEX 和 FewCLUE 等评估少量次学习技术的基准也应当扩展到其它语言和领域。
紧凑模型
T-PTLM 几乎在每种 NLP 任务上都获得了最佳表现。但是,这些模型都很大,需要更大的存储空间。因为这些模型的层数很多,因此输入需要一定时间才能完全通过模型,从而得到预测结果,因此延迟很高。而真实世界应用的资源有限,需要更低的延迟,因此剪枝、量化、知识蒸馏、参数共享和分解等模型压缩方法已经在英语通用领域应用方面得到了探索。研究这些模型压缩方法在其它语言和领域的应用具有很大的前景。
对噪声的稳健性
T-PTLM 容易受到噪声影响,其中包括对抗噪声和自然噪声。其主要原因是使用了子词嵌入。在使用子词嵌入时,一个词会被分解为多个子词 token,因此即使很小的拼写错误也可能改变该词的整体表征,进而阻碍模型学习并影响模型预测。为了提升模型对噪声的稳健性,CharacterBERT 等模型采用了只使用字符嵌入的方法,而 CharBERT 等模型则会将字符嵌入和子词嵌入一起使用。这两种方法都能提升对噪声的稳健性。
近期,研究者们还提出了 CANINE、ByT5 和 Charformer 等无 token 化模型来提升对噪声的稳健性。为了让这些模型能在真实世界中得到应用,尤其是在医学等敏感领域,我们需要提升它们的稳健性。
全新的适应方法
为了将通用模型适应到生物医学等专业领域或将多语言模型适应到特定语言,常用的策略是使用持续性预训练。尽管这种方法通过调整模型以适应特定的领域或语言能得到良好的结果,但如果缺少领域或语言特定的词汇库,下游模型的性能会受到影响。近期有研究者提出了扩展词汇表然后持续预训练的方法。这些方法能克服 OOV 词的问题,但由于会在词汇表中增加新词,因此会增大词汇表的规模。近日,Yao et al. 提出了 Adapt and Distill 方法,即使用词汇表扩展和知识蒸馏来使通用模型适应特定领域。不同于已有的适应方法,该方法不仅能让通用模型适应特定领域,而且还能减小模型的规模。这一注意值得进一步研究并有望产出全新的适应方法。
隐私问题
T-PTLM 已经在许多 NLP 任务上取得了优良的结果。但是,这些模型也存在一些超出预期且并无益处的风险。举个例子,数据泄露是人们担心的一个主要问题,尤其是当这些模型的预训练使用了隐私数据时。由于模型是在大量文本数据上预训练的,因此有可能从中恢复敏感信息,比如可识别出个人身份的信息。因此,需要防止人们公开发布使用隐私数据预训练的模型。
近日,Carlini et al. 研究表明,GPT-2 模型可生成一个人的完整邮政地址,这些地址包含在训练数据中,可使用该人的名字通过提示得到。近期出现在生物医学领域的 KART 框架可通过执行多种攻击来评估数据泄露情况。研究社区需要开发更复杂的攻击来评估数据泄露情况并开发防止预训练模型泄露敏感数据的方法。
降低偏见
基于深度学习的方法正在现实世界中得到越来越广泛的应用,其中包括在生物医学和法律等专业领域。但是,这些模型很容易学习并放大训练数据中已有的偏见。由此造成的结果是:这些模型会产生对特定种族、性别或年龄群体的偏见。我们完全不需要这样的模型。
近期出现了一些重点关注识别和降低偏见的研究。比如,Minot et al. 提出了一种用于减少性别偏见的数据增强方法,Liang et al. 提出的 A-INLP 方法可以动态地识别偏见敏感型 token。在这一领域进行进一步研究有助于降低预训练模型中的偏见并帮助它们做出公平的决定。
降低微调不稳定性
为了让预训练模型适应下游任务,最常用的方法是微调。尽管微调的表现不错,但它并不稳定,即使用不同随机种子来执行微调会令下游表现差距巨大。有人认为,微调不稳定的原因包括灾难性遗忘和数据集规模较小。但是,Mosbach et al. 表明这两个原因都不是微调不稳定的原因,并进一步表明微调不稳定的原因包括:a) 优化困难,导致梯度消失,b) 泛化问题。为了降低微调不稳定,可能的解决方案包括:a) 中间微调,b) 混合(mix-out),c) 在早期 epoch 采用更小的学习率并且增多微调 epoch 的次数,d) 同时使用监督式对比损失和交叉熵损失。让微调更稳定的方法值得进一步研究。
---------♥---------
声明:本内容来源网络,版权属于原作者
图片来源网络,不代表本公众号立场。如有侵权,联系删除
AI博士私人微信,还有少量空位
点个在看支持一下吧
以上是关于NLP应用于司法系统(综述)的主要内容,如果未能解决你的问题,请参考以下文章