使用无监督学习改进中文分词
Posted 学术世界
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用无监督学习改进中文分词相关的知识,希望对你有一定的参考价值。
使用无监督学习改进中文分词
沈翔翔,李小勇
上海交通大学
针对互联网语料中的未登录词问题,提出一种基于无监督学习的中文分词改进算法.使用基准分词器对未标注的语料进行分词,选择适合于未登录词发现的模型进行无监督训练得到词向量,并使用词向量结果贪心地发现未登录词,修正分词结果.在传统中文语料上与互联网语料上,比较了基于字典的字符串匹配模型与基于字符标注的机器学习模型的分词效果.实验结果表明,改进算法可以提升中文分词效果,在互联网语料上的提升效果尤为明显.改进算法在PKU语料上取得了最多1.1%的F值提升,在MSR语料上取得了最多1.2%的F值提升,在互联网语料上取得了最多5%的F值提升.
小型微型计算机系统
2017, 38(4): 744-748
作者简介 沈翔翔,男,1991年生,硕士研究生,研究方向为机器学习、数据挖掘;李小勇,男,1972年生,博士,副教授,研究方向为海量存储、高性能网络、大数据应用.
扫描下载全文
http://xwxt.sict.ac.cn/CN/Y2017/V38/I4/744
猜你喜欢 | 推荐指数★★★★★
中科国鼎数据科学研究院
温馨提示:点击页面右下角“写留言”发表评论,期待您的参与!欢迎转发!
以上是关于使用无监督学习改进中文分词的主要内容,如果未能解决你的问题,请参考以下文章