中文分词(概况)

Posted aspiration

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词(概况)相关的知识,希望对你有一定的参考价值。

中文词法分析
中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示

中文词法分析难点

  1. 重叠词,离合词,词缀
  2. 中文词语的切分歧义
  3. 中文未定义词
  4. 词性标注

解决方法:

  1. 基于词典的机械切分算法
  2. 基于规则的切分算法
  3. 基于统计的切分算法

对于未登录词的处理。未登录词大致包括以下几类
中国人名,翻译地名,机构名,商标字号,专业术语,?缩略语,如三个代表、扫黄打非。
?新词语,如美刀、港刀
对每一类未登录词都要构造专门的识别算法,别的主要依据是内部构成规律(用字规律)、外部环境(上下文)和重复出现规律
各种不同类型的未登录词识别都需要收集大量
数据,建立不同的数据模型。常用的方法包括







以上是关于中文分词(概况)的主要内容,如果未能解决你的问题,请参考以下文章

中文分词—规则分词

ElasticSearch 中文分词器对比

中文分词概述及结巴分词原理

百度中文分词如何分词

lucene 中文分词?

分词器以及ik中文分词器