jieba学习

Posted qiuyuyu

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了jieba学习相关的知识,希望对你有一定的参考价值。

安装jieba pip install jieba/或Spyder中安装,需在anaconda promote中conda install jieba
jieba中默认精准模式2
1、全模式

import jieba
sentence="我喜欢上海东方明珠"
#cut_all设置模式,Ture全模式
w1=jieba.cut(sentence,cut_all=True)
#结果通过循环显示
for item in w1:
print(item)

2、精准

import jieba
sentence="我喜欢上海东方明珠"
#cut_all设置模式,False精准模式
w2=jieba.cut(sentence,cut_all=False)
for item in w2:
    print(item)
print("")

3、使用搜索引擎切分:cut_for_search

w3=jieba.cut_for_search(sentence)
for item in w3:
    print(item)

词性标注posseg

import jieba.posseg
sentence2=("天善智能公司是很好的机构")
w5=jieba.posseg.cut(sentence2)
#.flag属性调用词性
  #word调用词语  
for i in w5:
    print(i)#print(item.word+"---"+item.flag)
a:形容词
c:连词
d:副词
e:叹词
f:方位词
i:成语
m:数次
n:名词
nr:人名
ns:地名
nt:机构团体
nz:其他专有名词
p:介词
r:代词
t:时间
u:助词
v:动词
vn:动名词
w,标点符号
un:未知词语

词典加载:(别忘了编码)utf-8

jieba.load_userdict("新建文件地址")
sentence2="天善智能公司是很好的机构"
w6=jieba.cut(sentence2)
for item in w6:
    print(item)
#加在原来的词典dict中,会持久性输出
#加在自己建的词典里,不会

更改词频

sentence="我喜欢上海东方明珠"
w7=jieba.cut(sentence)
for i in w7:
    print(i)

jieb.suggest_freq("上海东方",True)
w8=jieba.cut(sentence)
for item in w8:
    print(item)

返回文本中频数多的词语

sentence="我喜欢上海东方明珠"
#提取关键词
tag=jieba.analyse.extract_tags(sentence,3)
print(tag)

返回词语位置

sentence="我喜欢上海东方明珠"
w9=jieba.tokenize(sentence)
for item in w9:
    print(item)

w10=jieba.tokenize(sentence,mode="search")
for item in w9:
    print(item)

实战:提取盗墓笔记中的关键字

import jieba.analyse
data=open("C:/Users/。。。。/Desktop/shenmmingzi/dmbj.txt").read()
tag=jieba.analyse.extract_tags(data,20)
print(tag)

技术分享图片

 

 

 

 

 

 

 

 

 

 

 

 

 

 

技术分享图片



以上是关于jieba学习的主要内容,如果未能解决你的问题,请参考以下文章

jieba分词学习

jieba分词与HMM学习

jieba学习

Python库学习.jieba

Python库学习.jieba

转]python 结巴分词(jieba)学习