论文名称:N-LTP: A Open-source Neural Chinese Language Technology Platform with Pretrained Models 论文作者:车万翔,冯云龙,覃立波,刘挺 原创作者:冯云龙 论文链接:https://arxiv.org/abs/2009.11616 转载须标注出处:哈工大SCIR
现有种类繁多的自然语言处理(NLP)工具包,例如CoreNLP [1],UDPipe [2],FLAIR [3],spaCy 和Stanza [4]的英文版,这使用户可以更轻松地构建具有复杂语言处理能力的工具。最近,在许多下游应用中对中文NLP的需求急剧增加。中文NLP平台通常包括词法分析(中文分词(CWS),词性(POS)标记和命名实体识别(NER)),语法分析(依赖项解析(DEP))和语义分析(语义依赖解析(SDP)和语义角色标记(SRL))。不过用于中文NLP任务的高性能和高效率工具包相对较少。
图1 N-LTP模型概览
丰富的中文基础NLP任务:N-LTP支持丰富的中文基础NLP任务,包括词法分析(分词,词性标记,命名实体识别和语义角色标记),语法解析和语义解析(语义依赖解析)。 -
多任务学习:现有的中文NLP工具包均针对每个任务采用独立的模型,从而忽略了各个任务之间的共享知识。为了缓解这个问题,我们建议使用多任务框架 [8] 来利用所有任务之间的共享知识。同时,针对所有六个任务使用共享编码器进行的多任务学习可以大大减少占用的内存并提高速度,从而使N-LTP更加高效,从而减少了对硬件的需求。 -
可扩展性:N-LTP与用户的自定义模块一起使用。用户可以轻松地通过配置文件添加新的预训练模型,通过更改配置,用户可以轻松地将预训练模型更改为变压器支持的任何类似BERT的模型 [9]。我们已经使所有任务训练配置文件开源。 -
易于使用的API和可视化工具:N-LTP提供了基本API的集合,这使用户无需任何知识即可方便地使用该工具包。我们还提供了可视化工具,使用户可以直接查看处理结果。此外,N-LTP具有许多编程语言可用的绑定,比如C++,Python,Java和Rust等。 -
$ pip install ltp
from ltp import LTP
ltp = LTP() # 默认加载 Small 模型
seg, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)
// RUST 语言
use ltp_rs::{LTPError, LTP};
fn main() -> Result<(), LTPError> {
let mut ltp = LTP::new("path/to/model", 16)?;
let sentences = vec![String::from("他叫汤姆去拿外衣。")];
let result = ltp.pipeline_batch(&sentences)?;
println!("{:?}", result);
为了提取所有中文相关任务的共享知识,我们采用了多任务框架,其中六个中文任务共享一个编码器。在我们的框架中,我们采用SOTA预训练模型(ELECTRA [5])作为编码器。
给定输入序列 = ( ),我们首先通过添加特定标记 = ( )构造输入序列),其中 是表示整个序列的特殊符号, 是用于分隔非连续令牌序列的特殊符号(Devlin et al。,2019)。ELECTRA接受构造的输入,并输出序列 = ( , , )的相应隐藏表示。
中文分词(CWS)是中文自然语言处理(NLP)的首要任务。在N-LTP中,CWS被视为基于字符的序列标记问题。具体来说,给定隐层的表示形式 = ( , , ),我们采用线性解码器对每个字符进行分类:
这里我们使用了 Adapted-Transformer[6] 来获取方向和距离敏感的词语表示,然后使用线性分类器对其进行分类:
其中 表示每个字符的NER标签概率分布。
依存关系分析是分析句子的语义结构的任务。在N-LTP中,我们使用 deep biaffine parser [10](Dozat and Manning,2017)和einser算法 [7](Eisner,1996)以获取解析结果,其公式为:
这里我们仍然使用 Biaffine 模型来对结果进行预测,不过之后我们使用
如果 我们则认为从 到 存在一个边。
这里我们使用 Biaffine 和 CRF 的解码器相结合的方法构建了一个端到端的 SRL 模型。
其中 表示谓词为 时的任意标签序列,而 表示从 到 对于 的分数。
表1 LTP 和 Stanza 在 LTP 数据集上的结果。

表2展示了LTP 和 Stanza 在 UD 和 Ontonotes 上的结果,这里报的是Stanza的官方结果,指标采用Stanza提供的评测脚本计算得出。
表2 LTP 和 Stanza 在 UD 和 Ontonotes 上的结果
表3 LTP模型与不同任务上的SOTA预训练模型进行比较
