统计分词

Posted hapyygril

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了统计分词相关的知识,希望对你有一定的参考价值。

思想:

     把每个词看成是各个字组成,如果相连的字在不同的文本中出现次数越多,相连的字很可能是一个词

     利用字与字相邻出现的频率反映词的可靠度

buzhou:

    建立统计语言模型

    对句子进行单词划分,然后对划分结果进行概率计算,获得最大概率的分词方式

语言模型:

   长度为m的字符串确定其概率分布为P(w1,w2,.......wm)其中,w1,w2,wm依次表示文本中的各个词语

以上是关于统计分词的主要内容,如果未能解决你的问题,请参考以下文章

如何用python和jieba分词,统计词频?

分词原理

IKanalyzer分词器分词并且统计词频

Python之酒店评论分词词性标注TF-IDF词频统计词云

es实战-使用IK分词器进行词频统计

python中文分词+词频统计