学习基于词的神经网络中文分词方法

Posted 机器学习研究会

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习基于词的神经网络中文分词方法相关的知识,希望对你有一定的参考价值。

点击上方 “机器学习研究会”可以订阅哦
摘要
转自:哈工大SCIR
1 引言
中文分词是很多中文自然语言处理任务的第一步。中文分词的方法中,认识程度最高的是基于字的分类或序列标注方法。对于输入字序列,这一类方法解码出代表词边界的标签,然后从这些标签中恢复出分词结果。基于字的方法具有简单高效的特点,也有诸如无法直接利用词级别特征的缺点。不同于基于字的方法,基于词的中文分词方法能够在解码过程中获得部分的分词结果,因而能够充分利用词级别的特征。在中文分词研究的不同阶段,基于词的方法都取得了与基于字的方法相匹敌甚至更好的结果[Aandrew2006]。

深度学习的浪潮给自然语言处理研究带来诸多新思路。其中一项非常重要的思路是使用稠密向量与非线性的网络表示自然语言。在这样的背景下,基于词的神经网络中文分词方法成为一个很有趣的研究问题。如何表示中文分词中的词向量,词向量表示能否与解码算法很好的融合等都是基于词的神经网络中文分词方法要回答的问题。

原文链接:
https://mp.weixin.qq.com/s?__biz=MzIxMjAzNDY5Mg==&mid=2650791170&idx=1&sn=68a1943875c33d76188456b7cc7b9e5a&chksm=8f4748e9b830c1ffa7ab1fd561410dca35ff27028081f1f10b6025afd094bd4bdabd7b51f059&mpshare=1&scene=1&srcid=1128RWLtiasSMwRWNBtRI5mT&pass_ticket=ypfJM1NuvB%2BMVMGpvPNiw5N5Kkhy%2B2omh5csHblUfyA%3D#rd
“完整内容”请点击【阅读原文】
↓↓↓

以上是关于学习基于词的神经网络中文分词方法的主要内容,如果未能解决你的问题,请参考以下文章

必看|中文分词的十年回顾

深度长文:中文分词的十年回顾

中文分词技术

二等奖|基于双向长短时记忆模型的中文分词方法

jiba中文分词原理

结巴中文分词原理分析1