中文分词十年又回顾2007-2017--简报

Posted 机器学习小知识

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了中文分词十年又回顾2007-2017--简报相关的知识,希望对你有一定的参考价值。

上海交通大学的赵海副教授(曾多次获得自然语言处理国际评测第一名)整理了中文分词过去10年的进展。这里简单的分享一下这篇《中文分词十年又回顾2007-2017》中的一些结论,以飨众人。  

一、先上基本结论

中文分词的统计机器学习方法优于传统的规则方法尤其是在未登录词(out-of-vocabulary words, OOV)即训练集上未出现的词的识别上,具有无可比拟的优势

有人可能会说,这不是废话吗,统计机器学习的方法肯定比规则好啊!这里作者介绍了其中的原因:在20世纪90年代的时候,有几个历史性的因素使得中文分词没有很快拥抱统计学习方法,


其一是长期以来,基于规则的方法获得了不错的效果,降低了研发先进机器学习技术的迫切性。


其二是统计学习的方法计算量较大,当时的计算机很难高效处理机器学习的算法。


其三是标注语料的不足。这几个原因使得中文分词的发展迟滞了数年之久。近十年左右的时间,中文分词的算法层出不穷,取得了一定的进步,赵海副教授主要从监督学习方法的角度进行了深入的总结。

二、中文分词数据集有哪些?

  1. 滨州大学中文树库(Chinese Penn Treebank, CTB)

  2. 北京大学云计算语言所 标注的人民日报语料

  3. SIGHAN的国际中文分词评测数据集 SIGHAN Bakeoff-2003等

  4. 新浪微博语料

(如有一些其他语料欢迎补充)

三、中文分词的统计学习方法

中文分词的统计学习方法可以分为两类:1)传统机器学习模型 2)深度学习模型  

3.1 传统的机器学习模型

传统机器学习模型分为两大类:a)基于字标注的 b)基于词(相关特征)的学习。这一类方法包含最大熵Markov模型--Ng & Low (2004)和Low et al. (2005)。随后,出现了条件随机场分词模型Peng et al. (2004)和Tseng et al. (2005)。之后也有一些基于n-gram, semi-CRF等算法。

3.2 深度学习: 神经网络分词模型

3.2.1 基本结论

深度学习也被称为表示学习,以降低特征工程的代价而著称,但是对于分词的任务,其发挥空间非常有限。 在SIGHAN Bakeoff-2005语料上的分词性能比较。神经分词系统 短短数年间取得了长足进步,但整体上仍然不敌传统模型。无论是分词精度还是计算效率上,和传统方法相比并都不具有显著优势。

(下图中上半部分是传统机器学习方法,下半部分是深度学习方法)

3.2.2 期望神经分词模型改进的方向

一、有效集成字或者词的嵌入式表示,充分利用其中蕴含的有效句法和语义信息; 


二、将神经网络的学习能力有效地和已有的传统结构化建模方法结合,如在经典的字位标注模型中用等价的相应网络结构进行置换。

3.3 关于封闭及开放测试

封闭测试条件,要求不得使用训练集之外的语言资源,否则相应结果则是开放测试类别。区分封闭和开放测试的一个主要目的,是分辨机器学习的性能提升的确 是模型自身的改进,而非其它。


相当部分的神经分词的工作有意无意地 忽略了以上做法的角色区分,实际上等于混淆了开放和封闭测试,更不用说很多神经模型系统甚至再次 使用额外的词典标注来强化其性能。这些做法严重干扰了对于当前神经分词模型的分析和效果评估:到 底这些模型声称的性能提升,是来自新引入的深度学习模型,还是属于悄悄引入的外部资源的贡献?

四. 一些结论汇总

  1. 神经分词系统短短数年间取得了长足进步,但整体上仍然不敌传统模型无论是分词精度还是计算效率上,和传统方法相比并都不具有显著优势。

  2.  大量的实验表明了外部资源对神经模型的性能的提 升同样具有重要意义。  

  3. 基本结论是统计机器 学习系统给出的分词精度和训练语料规模大体符合Zipf律,即:语料规模指数增长,性能才能线性增长。 而和统计分词不同,更传统的规则分词,例如最大匹配法,其精度和所用的词典(即所收录的词表词) 的规模成线性关系,因为分词错误主要是未登录词导致的。这一结论意味着统计方法,无论是传统的字 标注还是现代的神经模型,仍有着巨大的增长空间。

  4. 长期以来一直存在着“字还是词”的特征表示优越性之争。字、词的特征学习需要在分词系统中均衡表达,才能获得最佳性能。所谓字、词争议的核心对应于分词的两个指标,已知词(或词表词,即出现在切分训练语料中的词) 的识别精度和未登录词的识别精度,前者识别精度很高、相对容易但所占百分比高,后者识别精度很低、 难度较大但所占百分比较低。经验性的结果表明,强调基于字的特征及其表示会带来更好的未登录词的识别性能。原因无他,未登录词从未在训练集出现,只能依赖于模型通过字的创造性组合才能识别。反过来,强调词特征的系统,包括基于词的切分系统,对于未登录词的识别效果通常略为逊色。

  5.  一、神经分词所取得的性能效果仅与传统分词系统大体相当,如果不是稍逊一筹的话; 二、相当一部分的神经分词系统所报告的性能改进(我们谨慎推测)来自于经由字或词嵌入表示所额外引入的外部语言资源信息,而非模型本身或字词嵌入表示方式所导致的性能改进如果说词嵌入表示蕴含着深层句法和语义信息的话,那么,这个结论似乎暗示一个推论,即分词学习是一个不需要太多句法和语义信息即可良好完成的任务。


以上是关于中文分词十年又回顾2007-2017--简报的主要内容,如果未能解决你的问题,请参考以下文章

必看|中文分词的十年回顾

深度长文:中文分词的十年回顾

中国 SaaS 二十年的回顾

Spark中文峰会7月4日|Apache Spark 3.0简介:回顾过去的十年,并展望未来

11款开放中文分词引擎大比拼

中文分词技术深度学习篇