jieba 结巴分词详解

Posted 2022-06-23 K同学啊

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了jieba 结巴分词详解相关的知识，希望对你有一定的参考价值。

🔗 运行环境：python3
🚩 作者：K同学啊
🥇 精选专栏：《深度学习100例》
🔥 推荐专栏：《新手入门深度学习》
📚 极品专栏：《Matplotlib教程》
📔 选自专栏：《自然语言处理NLP-实例教程》
🧿 优秀专栏：《Python入门100题》

📌 结巴分词代码

import jieba

# 如果你需要自定义专有名词，请加上这行代码
jieba.load_userdict('dict.txt')

job_title= pd.DataFrame()
job_title["title_jieba"] = df["job_title"].apply(lambda x:' '.join(jieba.cut(x)))
job_title[:3]

你可能还需要📌去除停用词的代码

with open("my_stop_words.txt", "r") as f:
    stopwords = f.readlines()
    
stopwords_list = []
for each in stopwords:
    stopwords_list.append(each.strip('\\n'))

def remove_stopwords(ls):  # 去除停用词
    ls = ls.split(" ")
    return [word for word in ls if word not in stopwords_list]

job_title['去除停用词后的数据']=job_title["title_jieba"].apply(lambda x: remove_stopwords(x))
job_title

以上是关于jieba 结巴分词详解的主要内容，如果未能解决你的问题，请参考以下文章