PaddleNLP--UIE--小样本快速提升性能(含doccona标注)
Posted 汀、
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了PaddleNLP--UIE--小样本快速提升性能(含doccona标注)相关的知识,希望对你有一定的参考价值。
相关文章:
1.快递单中抽取关键信息【一】----基于BiGRU+CR+预训练的词向量优化
2.快递单信息抽取【二】基于ERNIE1.0至ErnieGram + CRF预训练模型
3.快递单信息抽取【三】–五条标注数据提高准确率,仅需五条标注样本,快速完成快递单信息任务
1)PaddleNLP通用信息抽取技术UIE【一】产业应用实例:信息抽取实体关系抽取、中文分词、精准实体标。情感分析等、文本纠错、问答系统、闲聊机器人、定制训练
2)PaddleNLP–UIE(二)–小样本快速提升性能(含doccona标注)
!强烈推荐:数据标注平台doccano----简介、安装、使用、踩坑记录
0.信息抽取定义以及难点
自动从无结构或半结构的文本中抽取出结构化信息的任务, 主要包含的任务包含了实体识别、关系抽取、事件抽取、情感分析、评论抽取等任务; 同时信息抽取涉及的领域非常广泛,信息抽取的技术需求高,下面具体展现一些示例
- 需求跨领域跨任务:领域之间知识迁移难度高,如通用领域知识很难迁移到垂类领域,垂类领域之间的知识很难相互迁移;存在实体、关系、事件等不同的信息抽取任务需求。
- 定制化程度高:针对实体、关系、事件等不同的信息抽取任务,需要开发不同的模型,开发成本和机器资源消耗都很大。
- 训练数据无或很少:部分领域数据稀缺,难以获取,且领域专业性使得数据标注门槛高。
针对以上难题,中科院软件所和百度共同提出了一个大一统诸多任务的通用信息抽取技术 UIE(Unified Structure Generation for Universal Information Extraction),发表在ACL‘22。UIE在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能。
PaddleNLP结合文心大模型中的知识增强NLP大模型ERNIE 3.0,发挥了UIE在中文任务上的强大潜力,开源了首个面向通用信息抽取的产业级技术方案,不需要标注数据(或仅需少量标注数据),即可快速完成各类信息抽取任务。
**链接指路:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie )
1.使用PaddleNLP Taskflow工具解决信息抽取难点(中文版本)
1.1安装PaddleNLP
! pip install --upgrade paddlenlp
! pip show paddlenlp
1.2 使用Taskflow UIE任务看看效果
人力资源入职证明信息抽取
from paddlenlp import Taskflow
schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie = Taskflow('information_extraction', schema=schema)
schema = ['姓名', '毕业院校', '职位', '月收入', '身体状况']
ie.set_schema(schema)
ie('兹证明凌霄为本单位职工,已连续在我单位工作5 年。学历为嘉利顿大学毕业,目前在我单位担任总经理助理 职位。近一年内该员工在我单位平均月收入(税后)为 12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的,真实的。')
['姓名': ['text': '凌霄',
'start': 3,
'end': 5,
'probability': 0.9042383385504706],
'毕业院校': ['text': '嘉利顿大学',
'start': 28,
'end': 33,
'probability': 0.9927952662605009],
'职位': ['text': '总经理助理',
'start': 44,
'end': 49,
'probability': 0.9922470268350594],
'月收入': ['text': '12000 元',
'start': 77,
'end': 84,
'probability': 0.9788556518998917],
'身体状况': ['text': '良好',
'start': 92,
'end': 94,
'probability': 0.9939678710475306]]
# Jupyter Notebook默认做了格式化输出,如果使用其他代码编辑器,可以使用Python原生包pprint进行格式化输出
from pprint import pprint
pprint(ie('兹证明凌霄为本单位职工,已连续在我单位工作5 年。学历为嘉利顿大学毕业,目前在我单位担任总经理助理 职位。近一年内该员工在我单位平均月收入(税后)为 12000 元。该职工身体状况良好。本单位仅此承诺上述表述是正确的,真实的。'))
医疗病理分析
schema = ['肿瘤部位', '肿瘤大小']
ie.set_schema(schema)
ie('胃印戒细胞癌,肿瘤主要位于胃窦体部,大小6*2cm,癌组织侵及胃壁浆膜层,并侵犯血管和神经。')
['肿瘤部位': ['text': '胃窦体部',
'start': 13,
'end': 17,
'probability': 0.9601818899487213],
'肿瘤大小': ['text': '6*2cm',
'start': 20,
'end': 25,
'probability': 0.9670914301489972]]
1.3使用Taskflow UIE进行实体抽取、关系抽取、事件抽取、情感分类、观点抽取
# 实体抽取
schema = ['时间', '赛手', '赛事名称']
ie.set_schema(schema)
ie('2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!')
['时间': ['text': '2月8日上午',
'start': 0,
'end': 6,
'probability': 0.9857379716035553],
'赛手': ['text': '中国选手谷爱凌',
'start': 24,
'end': 31,
'probability': 0.7232891682586384],
'赛事名称': ['text': '北京冬奥会自由式滑雪女子大跳台决赛',
'start': 6,
'end': 23,
'probability': 0.8503080086948529]]
# 关系抽取
schema = '歌曲名称': ['歌手', '所属专辑']
ie.set_schema(schema)
ie('《告别了》是孙耀威在专辑爱的故事里面的歌曲')
['歌曲名称': ['text': '告别了',
'start': 1,
'end': 4,
'probability': 0.629614912348881,
'relations': '歌手': ['text': '孙耀威',
'start': 6,
'end': 9,
'probability': 0.9988381005599081],
'所属专辑': ['text': '爱的故事',
'start': 12,
'end': 16,
'probability': 0.9968462078543183],
'text': '爱的故事',
'start': 12,
'end': 16,
'probability': 0.28168707817316374,
'relations': '歌手': ['text': '孙耀威',
'start': 6,
'end': 9,
'probability': 0.9951415104192272]]]
# 事件抽取
schema = '地震触发词': ['地震强度', '时间', '震中位置', '震源深度'] # 事件需要通过xxx触发词来选择触发词
ie.set_schema(schema)
ie('中国地震台网正式测定:5月16日06时08分在云南临沧市凤庆县(北纬24.34度,东经99.98度)发生3.5级地震,震源深度10千米。')
['地震触发词': ['text': '地震',
'start': 56,
'end': 58,
'probability': 0.9977425555988333,
'relations': '地震强度': ['text': '3.5级',
'start': 52,
'end': 56,
'probability': 0.998080217831891],
'时间': ['text': '5月16日06时08分',
'start': 11,
'end': 22,
'probability': 0.9853299772936026],
'震中位置': ['text': '云南临沧市凤庆县(北纬24.34度,东经99.98度)',
'start': 23,
'end': 50,
'probability': 0.7874014521275967],
'震源深度': ['text': '10千米',
'start': 63,
'end': 67,
'probability': 0.9937974422968665]]]
# 情感倾向分类
schema = '情感倾向[正向,负向]' # 分类任务需要[]来设置分类的label
ie.set_schema(schema)
ie('这个产品用起来真的很流畅,我非常喜欢')
['情感倾向[正向,负向]': ['text': '正向', 'probability': 0.9990024058203417]]
# 评价抽取
schema = '评价维度': ['观点词', '情感倾向[正向,负向]'] # 评价抽取的schema是固定的,后续直接按照这个schema进行观点抽取
ie.set_schema(schema) # Reset schema
ie('地址不错,服务一般,设施陈旧')
['评价维度': ['text': '地址',
'start': 0,
'end': 2,
'probability': 0.9888139270606509,
'relations': '观点词': ['text': '不错',
'start': 2,
'end': 4,
'probability': 0.9927845886615216],
'情感倾向[正向,负向]': ['text': '正向', 'probability': 0.998228967796706],
'text': '设施',
'start': 10,
'end': 12,
'probability': 0.9588298547520608,
'relations': '观点词': ['text': '陈旧',
'start': 12,
'end': 14,
'probability': 0.928675281256794],
'情感倾向[正向,负向]': ['text': '负向', 'probability': 0.9949388606013692],
'text': '服务',
'start': 5,
'end': 7,
'probability': 0.9592857070501211,
'relations': '观点词': ['text': '一般',
'start': 7,
'end': 9,
'probability': 0.9949359182521675],
'情感倾向[正向,负向]': ['text': '负向', 'probability': 0.9952498258302498]]]
# 跨任务跨领域抽取
schema = ['寺庙', '丈夫': '妻子'] # 抽取的任务中包含了实体抽取和关系抽取
ie.set_schema(schema)
ie('李治即位后,让身在感业寺的武则天续起头发,重新纳入后宫。')
['寺庙': ['text': '感业寺',
'start': 9,
'end': 12,
'probability': 0.9888581774497425],
'丈夫': ['text': '李治',
'start': 0,
'end': 2,
'probability': 0.989690572797457,
'relations': '妻子': ['text': '武则天',
'start': 13,
'end': 16,
'probability': 0.9987625986790256]]]
1.4使用Taskflow UIE一些技巧
1.4.1. 调整batch_size提升预测效率
from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2) #资源不充裕情况,batch_size设置小点,利用率增加。。
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])
['费用': ['text': '46块钱',
'start': 13,
'end': 17,
'probability': 0.9781786110574338],
'费用': ['text': '110元',
'start': 11,
'end': 15,
'probability': 0.9504088995163151],
'费用': ['text': '46元',
'start': 21,
'end': 24,
'probability': 0.9753814247531167],
'费用': ['text': '21元',
'start': 15,
'end': 18,
'probability': 0.9761294626311425]]
1.4.2. 使用UIE-Tiny模型来加快模型预测速度
from paddlenlp import Taskflow
schema = ['费用']
ie.set_schema(schema)
ie = Taskflow('information_extraction', schema=schema, batch_size=2, model='uie-tiny') #
ie(['二十号21点49分打车回家46块钱', '8月3号往返机场交通费110元', '2019年10月17日22点18分回家打车46元', '三月三0号23点10分加班打车21元'])
['费用': ['text': '46块钱',
'start': 13,
'end': 17,
'probability': 0.8945340489542026],
'费用': ['text': '110元',
'start': 11,
'end': 15,
'probability': 0.9757676375014448],
'费用': ['text': '46元',
'start': 21,
'end': 24,
'probability': 0.860397941604333],
'费用': ['text': '21元',
'start': 15,
'end': 18,
'probability': 0.8595131018474689]]
2.小样本提升UIE效果
Taskflow中的UIE基线版本我们是通过大量的有标签样本进行训练,但是UIE抽取的效果面对部分子领域的效果也不是令人满意,UIE可以通过小样本就可以快速提升效果。
为什么UIE可以通过小样本来提升效果呢?UIE的建模方式主要是通过 Prompt
方式来建模, Prompt
在小样本上进行微调效果非常有效,下面我们通过一个具体的case
来展示UIE微调的效果。
2.1语音报销工单信息抽取
1. 背景
在某公司内部可以通过语音输入来报销打车费用,通过语音ASR模型可以将语音识别为文字,同时对文字信息进行信息抽取,抽取的信息主要是包括了4个方面,时间、出发地、目的地、费用,通过对文字4个方面的信息进行抽取就可以完成一个报销工单的填写。
2. 挑战
目前Taskflow UIE任务对于这种非常垂类的任务效果没有完全达到工业使用水平,因此需要一定的微调手段来完成UIE模型的微调来提升模型的效果,下面是一些case的展现
ie.set_schema(['时间', '出发地', '目的地', '费用'])
ie('10月16日高铁从杭州到上海南站车次d5414共48元') # 无法准确抽取出发地、目的地
['时间': ['text': '10月16日',
'start': 0,
'end': 6,
'probability': 0.9552445817793149],
'出发地': ['text': '杭州',
'start': 9,
'end': 11,
'probability': 0.5713024802221334],
'费用': ['text': '48元',
'start': 24,
'end': 27,
'probability': 0.8932524634666485]]
2.2 标注数据
参考 以上是关于PaddleNLP--UIE--小样本快速提升性能(含doccona标注)的主要内容,如果未能解决你的问题,请参考以下文章 简单高效性能好SetFit:无需Prompts的高效小样本学习 简单高效性能好SetFit:无需Prompts的高效小样本学习