python 笔记:nltk (标记英文单词词性等)

Posted UQI-LIUWJ

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 笔记:nltk (标记英文单词词性等)相关的知识,希望对你有一定的参考价值。

1 单词切分

import nltk

content = 'She sells seashells on the seashore. The seashells she sells are seashells, she is sure.'

tokens = nltk.word_tokenize(content)
print(tokens)
#['She', 'sells', 'seashells', 'on', 'the', 'seashore', '.', 'The', 'seashells', 'she', 'sells', 'are', 'seashells', ',', 'she', 'is', 'sure', '.']

1.1 词性划分

pos_tags = nltk.pos_tag(tokens)
print(pos_tags)
'''
[('She', 'PRP'), ('sells', 'VBZ'), ('seashells', 'NNS'), ('on', 'IN'), ('the', 'DT'), ('seashore', 'NN'), ('.', '.'), ('The', 'DT'), ('seashells', 'NNS'), ('she', 'PRP'), ('sells', 'VBZ'), ('are', 'VBP'), ('seashells', 'NNS'), (',', ','), ('she', 'PRP'), ('is', 'VBZ'), ('sure', 'JJ'), ('.', '.')]
'''

 1.1.1 词性表

2 词性还原

import nltk.stem as ns

# 词型还原:复数名词->单数名词 ;分词->动词原型
lemmatizer = ns.WordNetLemmatizer()


word = 'leaves'
# 将名词还原为单数形式
#'n'表示是一个名词(noun)
n_lemma = lemmatizer.lemmatize(word, pos='n')
print(n_lemma)
#leaf


# 将动词还原为原型形式
#'v'表示是一个动词(verb)
v_lemma = lemmatizer.lemmatize(word, pos='v')
print(v_lemma)
#leave

《新程序员》:云原生和全面数字化实践 50位技术专家共同创作,文字、视频、音频交互阅读

以上是关于python 笔记:nltk (标记英文单词词性等)的主要内容,如果未能解决你的问题,请参考以下文章

NLTK学习笔记:分类和标注词汇

NLTK 将标记化的句子转换为同义词集格式

Python 频率分布 (FreqDist / NLTK) 问题

用NLTK/Python生成一串N个随机英文单词

在PyCharm中安装nltk,以及nltk data的下载。

分类和标注词汇