中文分词(概况)
Posted aspiration
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词(概况)相关的知识,希望对你有一定的参考价值。
中文词法分析
中文属于分析型语言,词基本上没有专门表示语法意义的附加成分,形态变化很少,语法关系靠词序和虚词来表示
中文词法分析难点
- 重叠词,离合词,词缀
- 中文词语的切分歧义
- 中文未定义词
- 词性标注
解决方法:
- 基于词典的机械切分算法
- 基于规则的切分算法
- 基于统计的切分算法
对于未登录词的处理。未登录词大致包括以下几类
中国人名,翻译地名,机构名,商标字号,专业术语,?缩略语,如三个代表、扫黄打非。
?新词语,如美刀、港刀
对每一类未登录词都要构造专门的识别算法,别的主要依据是内部构成规律(用字规律)、外部环境(上下文)和重复出现规律
各种不同类型的未登录词识别都需要收集大量
数据,建立不同的数据模型。常用的方法包括
以上是关于中文分词(概况)的主要内容,如果未能解决你的问题,请参考以下文章