python 笔记:nltk (标记英文单词词性等)
Posted UQI-LIUWJ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python 笔记:nltk (标记英文单词词性等)相关的知识,希望对你有一定的参考价值。
1 单词切分
import nltk
content = 'She sells seashells on the seashore. The seashells she sells are seashells, she is sure.'
tokens = nltk.word_tokenize(content)
print(tokens)
#['She', 'sells', 'seashells', 'on', 'the', 'seashore', '.', 'The', 'seashells', 'she', 'sells', 'are', 'seashells', ',', 'she', 'is', 'sure', '.']
1.1 词性划分
pos_tags = nltk.pos_tag(tokens)
print(pos_tags)
'''
[('She', 'PRP'), ('sells', 'VBZ'), ('seashells', 'NNS'), ('on', 'IN'), ('the', 'DT'), ('seashore', 'NN'), ('.', '.'), ('The', 'DT'), ('seashells', 'NNS'), ('she', 'PRP'), ('sells', 'VBZ'), ('are', 'VBP'), ('seashells', 'NNS'), (',', ','), ('she', 'PRP'), ('is', 'VBZ'), ('sure', 'JJ'), ('.', '.')]
'''
1.1.1 词性表
2 词性还原
import nltk.stem as ns
# 词型还原:复数名词->单数名词 ;分词->动词原型
lemmatizer = ns.WordNetLemmatizer()
word = 'leaves'
# 将名词还原为单数形式
#'n'表示是一个名词(noun)
n_lemma = lemmatizer.lemmatize(word, pos='n')
print(n_lemma)
#leaf
# 将动词还原为原型形式
#'v'表示是一个动词(verb)
v_lemma = lemmatizer.lemmatize(word, pos='v')
print(v_lemma)
#leave
《新程序员》:云原生和全面数字化实践
50位技术专家共同创作,文字、视频、音频交互阅读
以上是关于python 笔记:nltk (标记英文单词词性等)的主要内容,如果未能解决你的问题,请参考以下文章
Python 频率分布 (FreqDist / NLTK) 问题