Paper Reading | 基于深度学习的多标准中文分词

Posted 欢欢的生活杂记

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Paper Reading | 基于深度学习的多标准中文分词相关的知识,希望对你有一定的参考价值。

Paper:

He H, Wu L, Yan H, et al. Effective Neural Solution for Multi-Criteria Word Segmentation


如何找到了这篇文章?

在查找资料的时候,发现了一个很不错的博客:http://www.hankcs.com/这个博客是博主一个人维护的,但是信息量很大,而且内容非常优质,包括自行开发的自然语言处理包HanLP,算法,CS224n课程笔记等等。对我这种小白,感觉博主很赞,别的不说,光是外语Learning以及写作量,就足够了赞赞赞啦!(安利时刻!!!)

这篇文章来自arXiv,第一作者就是博主。

第一遍读的时候,看不懂,但这是一篇很好的文章。

第二遍读的时候,列出了很多问题。如果能读懂并复现这篇文章,需要算法功底和工程能力。本人现在的水平有相当大的差距。

后来,在博客上看到了博主对这篇文章的介绍。http://www.hankcs.com/nlp/segment/multi-criteria-cws.html


|| 题目:基于深度学习的多标准中文分词

关键词:中文分词    多标准    深度学习    CRF    LSTM    不同语料集

作者将源码和语料集开发在了GitHub。

||  中文分词的方法有哪些

英语没有分词的问题,因为word之间有天然的空格。但对中文却不是。那么为什么要做中文分词呢?中文分词是文本处理或自然语言处理的第一步。

中文分词,被归类为序列标注问题,经典常用的方法是最大熵模型、HMM和CRF(条件随机场)等基于统计学的方法。但这种方法的缺点:heavy handcrafted feature engineering within a fixed size window。

后来深度学习应用在NLP领域,比如LSTM。

||  本文要解决的问题,以及采用的算法和创新点

本文的方法是基于Bi-LSTM + CRF,即结合了统计学方法和深度学习方法。

本文要解决的问题是什么?①在不同标准的语料库上,②用多标准学习方法,③既可以兼容不同的语料库,也可以得到优于单个语料单个标准的学习方法的性能,④并将该方法应用到更大的语料库上。

具体怎么做呢?

(1)不同的语料库的标注方法/分词结果不同,如下图所示

(2)首先在每一句话(sentence)的开始和结束位置分别添加标记,标记区分和标定了不同的语料库。这样解决了对不同标准的语料库的兼容,也对应了本文标题中的“多标准”。(introduces two artificial tokens at the beginning and ending of input sentence to specify the required target criteria)

多标准方法来自文献Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Adversarial Multi-Criteria Learning for Chinese Word Segmentation.1704:arXiv:1704.07556.

句子中加入标记的方法来自文Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda B Vi´egas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016. Google’s Multilingual Neural Machine Translation System - Enabling Zero-Shot Translation. cs.CL

(3)Bi-LSTM + CRF

中文分词的tag为{B, M, E, S},分别表示begin, middle, end和单个词。

暂时不了解公式推导。

(4)训练和测试

测试集为SIGHAN Bakeoff 2005 & 2008。

指标为PRF(Precision,Recall,F-Measure)。

基准测试:在每个语料库上单独测试Bi-LSTM-CRF算法,也就是single-criterion学习方法。

||  结果与分析

结果:结果有提升。

||  More about......

数据集SIGHAN Bakeoff 2005 & 2008

CRF/LSTM,理论、公式推导

更多文献……


P.S.    想读&该读的论文太多了,感觉自己写的笔记很low,且读且珍惜

(2018/01/11,周四,南京)


以上是关于Paper Reading | 基于深度学习的多标准中文分词的主要内容,如果未能解决你的问题,请参考以下文章

Paper Reading 2:Human-level control through deep reinforcement learning

Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning

Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning

gitHubDailyShare深度学习论文精读

Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

Paper Reading