Paper Reading | 基于深度学习的多标准中文分词
Posted 欢欢的生活杂记
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Paper Reading | 基于深度学习的多标准中文分词相关的知识,希望对你有一定的参考价值。
Paper:
He H, Wu L, Yan H, et al. Effective Neural Solution for Multi-Criteria Word Segmentation
如何找到了这篇文章?
在查找资料的时候,发现了一个很不错的博客:http://www.hankcs.com/。这个博客是博主一个人维护的,但是信息量很大,而且内容非常优质,包括自行开发的自然语言处理包HanLP,算法,CS224n课程笔记等等。对我这种小白,感觉博主很赞,别的不说,光是外语Learning以及写作量,就足够了赞赞赞啦!(安利时刻!!!)
这篇文章来自arXiv,第一作者就是博主。
第一遍读的时候,看不懂,但这是一篇很好的文章。
第二遍读的时候,列出了很多问题。如果能读懂并复现这篇文章,需要算法功底和工程能力。本人现在的水平有相当大的差距。
后来,在博客上看到了博主对这篇文章的介绍。http://www.hankcs.com/nlp/segment/multi-criteria-cws.html
|| 题目:基于深度学习的多标准中文分词
关键词:中文分词 多标准 深度学习 CRF LSTM 不同语料集
作者将源码和语料集开发在了GitHub。
|| 中文分词的方法有哪些
英语没有分词的问题,因为word之间有天然的空格。但对中文却不是。那么为什么要做中文分词呢?中文分词是文本处理或自然语言处理的第一步。
中文分词,被归类为序列标注问题,经典常用的方法是最大熵模型、HMM和CRF(条件随机场)等基于统计学的方法。但这种方法的缺点:heavy handcrafted feature engineering within a fixed size window。
后来深度学习应用在NLP领域,比如LSTM。
|| 本文要解决的问题,以及采用的算法和创新点
本文的方法是基于Bi-LSTM + CRF,即结合了统计学方法和深度学习方法。
本文要解决的问题是什么?①在不同标准的语料库上,②用多标准学习方法,③既可以兼容不同的语料库,也可以得到优于单个语料单个标准的学习方法的性能,④并将该方法应用到更大的语料库上。
具体怎么做呢?
(1)不同的语料库的标注方法/分词结果不同,如下图所示
(2)首先在每一句话(sentence)的开始和结束位置分别添加标记,标记区分和标定了不同的语料库。这样解决了对不同标准的语料库的兼容,也对应了本文标题中的“多标准”。(introduces two artificial tokens at the beginning and ending of input sentence to specify the required target criteria)
多标准方法来自文献:Xinchi Chen, Zhan Shi, Xipeng Qiu, and Xuanjing Huang. 2017. Adversarial Multi-Criteria Learning for Chinese Word Segmentation.1704:arXiv:1704.07556.
在句子中加入标记的方法来自文献:Melvin Johnson, Mike Schuster, Quoc V Le, Maxim Krikun, Yonghui Wu, Zhifeng Chen, Nikhil Thorat, Fernanda B Vi´egas, Martin Wattenberg, Greg Corrado, Macduff Hughes, and Jeffrey Dean. 2016. Google’s Multilingual Neural Machine Translation System - Enabling Zero-Shot Translation. cs.CL
(3)Bi-LSTM + CRF
中文分词的tag为{B, M, E, S},分别表示begin, middle, end和单个词。
暂时不了解公式推导。
(4)训练和测试
测试集为SIGHAN Bakeoff 2005 & 2008。
指标为PRF(Precision,Recall,F-Measure)。
基准测试:在每个语料库上单独测试Bi-LSTM-CRF算法,也就是single-criterion学习方法。
|| 结果与分析
结果:结果有提升。
|| More about......
数据集SIGHAN Bakeoff 2005 & 2008
CRF/LSTM,理论、公式推导
更多文献……
P.S. 想读&该读的论文太多了,感觉自己写的笔记很low,且读且珍惜
(2018/01/11,周四,南京)
以上是关于Paper Reading | 基于深度学习的多标准中文分词的主要内容,如果未能解决你的问题,请参考以下文章
Paper Reading 2:Human-level control through deep reinforcement learning
Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning
Paper Reading 4:Massively Parallel Methods for Deep Reinforcement Learning