中文分词工具在线PK新增：FoolNLTKLTPStanfordCoreNLP

Posted 2021-04-24 AINLP

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了中文分词工具在线PK新增：FoolNLTKLTPStanfordCoreNLP相关的知识，希望对你有一定的参考价值。

以下是在Python3.x & Ubuntu16.04 的环境下测试及安装这些中文分词器：

6）FoolNLTK：https://github.com/rockyzhengwu/FoolNLTK

特点
可能不是最快的开源中文分词，但很可能是最准的开源中文分词
基于BiLSTM模型训练而成
包含分词，词性标注，实体识别,　都有比较高的准确率
用户自定义词典
可训练自己的模型
批量处理

定制自己的模型
get clone https://github.com/rockyzhengwu/FoolNLTK.git
cd FoolNLTK/train
详细训练步骤可参考文档

仅在linux Python3　环境测试通过

安装，依赖TensorFlow, 会自动安装：
pip install foolnltk

中文分词示例：

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

7) LTP: https://github.com/HIT-SCIR/ltp

pyltp: https://github.com/HIT-SCIR/pyltp

pyltp 是语言技术平台（Language Technology Platform, LTP）的 Python 封装。

安装 pyltp
注：由于新版本增加了新的第三方依赖如dynet等，不再支持 windows 下 python2 环境。
使用 pip 安装
使用 pip 安装前，请确保您已安装了 pip

$ pip install pyltp
接下来，需要下载 LTP 模型文件。

从源码安装
您也可以选择从源代码编译安装

$ git clone https://github.com/HIT-SCIR/pyltp
$ git submodule init
$ git submodule update
$ python setup.py install
安装完毕后，也需要下载相应版本的 LTP 模型文件。

这里使用"pip install pyltp"安装，安装完毕后在LTP模型页面下载模型数据：http://ltp.ai/download.html，我下载的是 ltp_data_v3.4.0.zip ，压缩文件有600多M，解压后1.2G，里面有不同NLP任务的模型。

中文分词示例：

8) Stanford CoreNLP: https://stanfordnlp.github.io/CoreNLP/
stanfordcorenlp: https://github.com/Lynten/stanford-corenlp

这里用的是斯坦福大学CoreNLP的python封装：stanfordcorenlp

stanfordcorenlp is a Python wrapper for Stanford CoreNLP. It provides a simple API for text processing tasks such as Tokenization, Part of Speech Tagging, Named Entity Reconigtion, Constituency Parsing, Dependency Parsing, and more.

安装很简单，pip即可：

pip install stanfordcorenlp

但是要使用中文NLP模块需要下载两个包，在CoreNLP的下载页面下载模型数据及jar文件，目前官方是3.9.1版本：

https://nlp.stanford.edu/software/corenlp-backup-download.html

第一个是：stanford-corenlp-full-2018-02-27.zip
第二个是：stanford-chinese-corenlp-2018-02-27-models.jar

前者解压后把后者也要放进去，否则指定中文的时候会报错。

中文分词使用示例：

最后再说一下，原本计划加上对NLPIR中文分词器的支持，但是发现它的license需要定期更新，对于长久放server端测试不太方便就放弃了；另外之所以选择python，因为我用了Flask restful api框架，也欢迎推荐其他的中文分词开源框架，如果它们有很好的Python封装的话，这里可以继续添加。

以上是关于中文分词工具在线PK新增：FoolNLTKLTPStanfordCoreNLP的主要内容，如果未能解决你的问题，请参考以下文章

中文分词工具哪个好用

中文分词

在线工具集合（新增cron quartz表达式在线生成……）

一篇带你玩转 Elasticsearch 中文分词

如何利用Python对中文进行分词处理

ELasticsearch安装拼音插件结合IK中文分词+拼音（在线+离线）