Paper Reading | 基于深度学习的多标准中文分词

Posted 2021-04-24 欢欢的生活杂记

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Paper Reading | 基于深度学习的多标准中文分词相关的知识，希望对你有一定的参考价值。

Paper：

He H, Wu L, Yan H, et al. Effective Neural Solution for Multi-Criteria Word Segmentation

如何找到了这篇文章？

在查找资料的时候，发现了一个很不错的博客：http://www.hankcs.com/。这个博客是博主一个人维护的，但是信息量很大，而且内容非常优质，包括自行开发的自然语言处理包HanLP，算法，CS224n课程笔记等等。对我这种小白，感觉博主很赞，别的不说，光是外语Learning以及写作量，就足够了赞赞赞啦！（安利时刻！！！）

这篇文章来自arXiv，第一作者就是博主。

第一遍读的时候，看不懂，但这是一篇很好的文章。

第二遍读的时候，列出了很多问题。如果能读懂并复现这篇文章，需要算法功底和工程能力。本人现在的水平有相当大的差距。

后来，在博客上看到了博主对这篇文章的介绍。http://www.hankcs.com/nlp/segment/multi-criteria-cws.html

|| 题目：基于深度学习的多标准中文分词

关键词：中文分词多标准深度学习 CRF LSTM 不同语料集

作者将源码和语料集开发在了GitHub。

|| 中文分词的方法有哪些

英语没有分词的问题，因为word之间有天然的空格。但对中文却不是。那么为什么要做中文分词呢？中文分词是文本处理或自然语言处理的第一步。

中文分词，被归类为序列标注问题，经典常用的方法是最大熵模型、HMM和CRF（条件随机场）等基于统计学的方法。但这种方法的缺点：heavy handcrafted feature engineering within a fixed size window。

后来深度学习应用在NLP领域，比如LSTM。

|| 本文要解决的问题，以及采用的算法和创新点

本文的方法是基于Bi-LSTM + CRF，即结合了统计学方法和深度学习方法。

本文要解决的问题是什么？①在不同标准的语料库上，②用多标准学习方法，③既可以兼容不同的语料库，也可以得到优于单个语料单个标准的学习方法的性能，④并将该方法应用到更大的语料库上。

具体怎么做呢？

（1）不同的语料库的标注方法/分词结果不同，如下图所示

（2）首先在每一句话（sentence）的开始和结束位置分别添加标记，标记区分和标定了不同的语料库。这样解决了对不同标准的语料库的兼容，也对应了本文标题中的“多标准”。（introduces two artificial tokens at the beginning and ending of input sentence to specify the required target criteria）

多标准方法来自文献：Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Adversarial Multi-Criteria Learning for Chinese Word Segmentation.1704:arXiv:1704.07556.

在句子中加入标记的方法来自文献：Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda B Vi´egas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016. Google’s Multilingual Neural Machine Translation System - Enabling Zero-Shot Translation. cs.CL

（3）Bi-LSTM + CRF

中文分词的tag为{B, M, E, S}，分别表示begin, middle, end和单个词。

暂时不了解公式推导。

（4）训练和测试

测试集为SIGHAN Bakeoff 2005 & 2008。

指标为PRF（Precision，Recall，F-Measure）。

基准测试：在每个语料库上单独测试Bi-LSTM-CRF算法，也就是single-criterion学习方法。

|| 结果与分析

结果：结果有提升。

|| More about......

数据集SIGHAN Bakeoff 2005 & 2008

CRF/LSTM，理论、公式推导

更多文献……

P.S. 想读&该读的论文太多了，感觉自己写的笔记很low，且读且珍惜

（2018/01/11，周四，南京）

以上是关于Paper Reading | 基于深度学习的多标准中文分词的主要内容，如果未能解决你的问题，请参考以下文章