二等奖|基于双向长短时记忆模型的中文分词方法

Posted 华南理工大学学报自然科学版

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了二等奖|基于双向长短时记忆模型的中文分词方法相关的知识,希望对你有一定的参考价值。



基于双向长短时记忆模型的中文分词方法

张洪刚 李焕

责任编辑:牛晓光

摘 要:中文分词是中文自然语言处理中的关键基础技术之一。目前,传统分词算法依赖于特征工程,而验证特征的有效性需要大量的工作。基于神经网络的深度学习算法的兴起使得模型自动学习特征成为可能。文中基于深度学习中的双向长短时记忆(BLSTM)神经网络模型对中文分词进行了研究。首先从大规模语料中学习中文字的语义向量,再将字向量应用于 BLSTM模型实现分词,并在简体中文数据集(PKU、MSRA、CTB) 和繁体中文数据集(HKCityU) 等数据集上进行了实验。实验表明,在不依赖特征工程的情况下,基于BLSTM 的中文分词方法仍可取得很好的效果。

作者简介:张洪刚( 1974-) ,男,副教授,主要从事模式识别研究。

引用格式:张洪刚, 李焕. 基于双向长短时记忆模型的中文分词方法[J]. 华南理工大学学报(自然科学版), 2017, 45(3): 61-67.

ZHANG Hong-gang,LI Huan. Chinese Word Segmentation Method on the Basis of Bidirectional Long-Short Term Memory Model[J]. Journal of South China University of Technology(Natural Science Edition), 2017, 45(3): 61-67.






线上投稿网址:http://zrb.bjb.scut.edu.cn

编辑:牛晓光/审核:刘淑华

戳左下角“阅读原文”在线翻阅本期期刊




以上是关于二等奖|基于双向长短时记忆模型的中文分词方法的主要内容,如果未能解决你的问题,请参考以下文章

基于LSTM-CRF的中文分词法

区间预测 | MATLAB实现BiLSTM双向长短期记忆神经网络分位数回归多输入单输出

数据预测基于matlab双向长短时记忆(BiLSTM)数据预测含Matlab源码 1824期

数据预测基于matlab双向长短时记忆(biLSTM)数据预测含Matlab源码 1793期

数据预测基于matlab双向长短时记忆BiLSTM(多输入单输出)数据预测含Matlab源码 1826期

回归预测 | MATLAB实现BO-CNN-BiLSTM贝叶斯优化卷积双向长短期记忆网络数据回归预测