97.5%准确率的深度学习中文分词（字嵌入+Bi-LSTM+CRF）

Posted 2021-04-24 待字闺中

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了97.5%准确率的深度学习中文分词（字嵌入+Bi-LSTM+CRF）相关的知识，希望对你有一定的参考价值。

摘要

深度学习当前在NLP领域发展也相当快，翻译，问答，摘要等基本都被深度学习占领了。本文给出基于深度学习的中文分词实现，借助大规模语料，不需要构造额外手工特征，在2014年人民日报语料上取得97.5%的准确率。模型基本是参考论文：

深度学习主要是特征学习，端到端训练，适合有大量语料的场景。另外各种工具越来越完善，利用GPU可大幅提高训练速度。

前文提过，深度学习主要是特征学习，在NLP里各种词嵌入是一种有效的特征学习。本文实现的第一步也是对语料进行处理，使用word2vec对语料的字进行嵌入，每个字特征为50维。

得到字嵌入后，用字嵌入特征喂给双向LSTM，对输出的隐层加一个线性层，然后加一个CRF就得到本文实现的模型。

另外，字符嵌入的表示可以是纯预训练的，但也可以在训练模型的时候再fine-tune,一般而言后者效果更好。

对于fine-tune的情形，可以在字符嵌入后，输入双向LSTM之前加入dropout进一步提升模型效果。

最后，对于最优化方法，文本语言模型类的貌似Adam效果更好，对于分类之类的，貌似AdaDelta效果更好。

本文使用2014人民日报语料，一共50w+ 句子,1千多万的字符次数 (句子长度超过50的不考虑)

标注示例：

法新社/j 报道/v 说/v ，/w [泰国/nsf 政府/nis]/nt 已经/d 作/v 好/a 签发/v 紧急状态/n 令/v的/ude1 准备/vn 。/w （/w 老/a 任/v ）/w

我们首先使用word2vec对字进行嵌入，具体就是把每一句按字符切割，空格隔开，喂给word2vec,指定维度50

然后我们把每一句处理成 :

字索引1 字索引2 … 字索引N 标注1 标注2 … 标注N

对于标注，我们按字分词的典型套路，

这样处理后使用前面描述模型训练。

97.5%准确率的深度学习中文分词（字嵌入+Bi-LSTM+CRF）

C++提供的在线服务demo：，或是点击“原文链接” 测试。

现在在尝试用深度学习来做各种NLP的实验，但是苦于现在已有的带GPU的机器的性能和大量任务。如果有哪位欣赏现在工作的金主，能捐赠一台价值两万（或是各位施主的打赏，哈哈）的GTX 1080机器，本人就开源现在的分词项目，和以后的其它NLP实验项目。

以上是关于97.5%准确率的深度学习中文分词（字嵌入+Bi-LSTM+CRF）的主要内容，如果未能解决你的问题，请参考以下文章