自然语言处理基础技术工具篇之pyltp

Posted AI小白入门

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理基础技术工具篇之pyltp相关的知识,希望对你有一定的参考价值。

pyltp简介

  • LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作。Pyltp是其的python接口。

  • 官方文档:https://ltp.readthedocs.io/zh_CN/latest/begin.html


pyltp工具Demo

安装:pip install pyltp,前面说过通过这种方式安装一直不能成功

pyltp安装有点麻烦-.-,于是记录了window 10下的一种成功安装方法

1.首先,pip install pyltp安装报错:error: command 'C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\BIN\x86_amd64\cl.exe' failed with exit status 2

  • 安装VS2008 EXPRESS,下载网址:https://visualstudio.microsoft.com/zh-hans/vs/express/

注意:ltp3.4.0 版本 SRL模型 pisrl.model在windows系统下不可用 下载这个:http://ospm9rsnd.bkt.clouddn.com/server/3.4.0/pisrl_win.model


1.分词

from pyltp import Segmentor seg = Segmentor() #生成对象 seg.load("pyltp-model\ltp_data_v3.4.0\cws.model") #加载分词预训练模型 seg_words = seg.segment("我爱自然语言处理技术!") print(" ".join(seg_words)) seg.release() #释放资源

我 爱 自然 语言 处理 技术 !


2.词性标注(对分好的词进行标注)

from pyltp import Postagger   pos=Postagger() #加载词性预训练模型 pos.load("pyltp-model\ltp_data_v3.4.0\pos.model") words_pos=pos.postag(seg_words) for k,v in zip(seg_words, words_pos):    print(k+'\t'+v) pos.release()

我   r 爱   v 自然  n 语言  n 处理  v 技术  n !   wp


3.命名实体识别

from pyltp import NamedEntityRecognizer ner = NamedEntityRecognizer() #加载命名实体识别预训练模型 ner.load("pyltp-model\ltp_data_v3.4.0\ner.model") netags=ner.recognize(seg_words,words_pos) print(" ".join(netags)) ner.release()


4.依存句法分析

from pyltp import Parser parser=Parser() parser.load("pyltp-model\ltp_data_v3.4.0\parser.model") arcs=parser.parse(seg_words,words_pos) print([(arc.head,arc.relation) for arc in arcs]) parser.release()

[(2, 'SBV'), (0, 'HED'), (4, 'ATT'), (5, 'FOB'), (2, 'VOB'), (5, 'VOB'), (2, 'WP')]


5.语义角色标注

from pyltp import SementicRoleLabeller labeller = SementicRoleLabeller() labeller.load("pyltp-model\ltp_data_v3.4.0\pisrl_win.model") roles = labeller.label(seg_words,words_pos,arcs) for role in roles:    print(role.index, "".join(        ["%s:(%d,%d)" % (arg.name, arg.range.start, arg.range.end) for arg in role.arguments]))

1 A0:(0,0)A1:(2,5) 4 A1:(5,5)






代码我已经上传github:
https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/PyltpDemo.ipynb





更多个人笔记请关注:

知乎专栏:https://www.zhihu.com/people/yuquanle/columns


以上是关于自然语言处理基础技术工具篇之pyltp的主要内容,如果未能解决你的问题,请参考以下文章

Python下的自然语言处理利器-LTP语言技术平台 pyltp 学习手札

21自然语言处理基础技术工具篇之Stanfordcorenlp

自然语言处理基础技术工具篇之spaCy

哈工大自然语言处理LTP工具箱pyltp在Windows11下的安装使用

自然语言处理工具箱 LTP pyltp 使用教程

哈工大自然语言处理工具pyltp的本地安装方法