编程实践Golang 实现中文分词
Posted 禅与计算机程序设计艺术
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了编程实践Golang 实现中文分词相关的知识,希望对你有一定的参考价值。
Golang 实现中文分词
分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。
中文分词(Chinese Word Segmentation)指的是将一个汉字序列(句子)切分成一个一个的单独的词,分词就是将连续的字序列按照一定的规则重新组合成词序列的过程。
现在分词方法大致有三种:基于字符串配置的分词方法、基于理解的分词方法和基于统计的分词方法。
今天为大家分享一个国内使用人数最多的中文分词工具GoJieba。
源代码地址:GitHub - yanyiwu/gojieba: "结巴"中文分词的Golang版本
官方文档:http://www.github.com/yanyiwu/gojieba/wiki
1.1.1. 官方介绍
支持多种分词方式,包括: 最大概率模式, HMM新词发现模式, 搜索引擎模式, 全模式
-
核心算法底层由C++实现,性能高效。
以上是关于编程实践Golang 实现中文分词的主要内容,如果未能解决你的问题,请参考以下文章
编程实践使用golang 解析json字符串代码 / 使用 golang 实现一个HashSet / 使用C语言实现KMP算法,并加上非常详尽的注释。