自然语言处理基础技术工具篇之spaCy

Posted AI小白入门

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理基础技术工具篇之spaCy相关的知识,希望对你有一定的参考价值。

spaCy是世界上最快的工业级自然语言处理工具~~今天我们来学习一波~~哈哈哈




spaCy简介

  • spaCy是世界上最快的工业级自然语言处理工具。 支持多种自然语言处理基本功能。

  • spaCy主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等等。


安装:pip install spaCy

国内源安装:pip install spaCy  -i https://pypi.tuna.tsinghua.edu.cn/simple

import spacy nlp = spacy.load('en') doc = nlp(u'This is a sentence.')


1.tokenize功能

for token in doc:    print(token)

This is a sentence .


2.词干化(Lemmatize)

for token in doc:    print(token, token.lemma_, token.lemma)

This this 1995909169258310477 is be 10382539506755952630 a a 11901859001352538922 sentence sentence 18108853898452662235 . . 12646065887601541794


3.词性标注(POS Tagging)

for token in doc:    print(token, token.pos_, token.pos)

This DET 89 is VERB 99 a DET 89 sentence NOUN 91 . PUNCT 96


4.命名实体识别(NER)

for entity in doc.ents:    print(entity, entity.label_, entity.label)


5.名词短语提取

for nounc in doc.noun_chunks:    print(nounc)

a sentence






另外,代码我已经上传github:https://github.com/yuquanle/StudyForNLP/blob/master/NLPtools/SpacyDemo.ipynb





更多个人笔记请关注:

知乎专栏:https://www.zhihu.com/people/yuquanle/columns


以上是关于自然语言处理基础技术工具篇之spaCy的主要内容,如果未能解决你的问题,请参考以下文章

自然语言处理基础技术工具篇之pyltp

自然语言处理 Spacy & NLTK实操

2020新书自然语言处理Python与spaCy实践,216页pdf,NLP with Python

技术干货丨网页基础篇之安利一款开发工具

自然语言处理最终篇之许嵩音乐智能问答系统微信小程序

以spacy中函数调用为例记录对自然语言基本处理任务