学习基于Deep Learning的中文分词尝试
Posted 机器学习研究会
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了学习基于Deep Learning的中文分词尝试相关的知识,希望对你有一定的参考价值。
现有分词介绍
自然语言处理(NLP,Natural Language Processing)是一个信息时代最重要的技术之一,简单来讲,就是让计算机能够理解人类语言的一种技术。在其中,分词技术是一种比较基础的模块。对于英文等拉丁语系的语言而言,由于词之间有空格作为词边际表示,词语一般情况下都能简单且准确的提取出来。而中文日文等文字,除了标点符号之外,字之间紧密相连,没有明显的词边界,因此很难将词提取出来。分词的意义非常大,在中文中,单字作为最基本的语义单位,虽然也有自己的意义,但表意能力较差,意义较分散,而词的表意能力更强,能更加准确的描述一个事物,因此在自然语言处理中,通常情况下词(包括单字成词)是最基本的处理单位。在具体的应用上,比如在常用的搜索引擎中,term如果是词粒度的话,不仅能够减少每个term的倒排列表长度,提升系统性能,并且召回的结果相关性高更准确。比如搜索query“的确”,如果是单字切分的话,则有可能召回“你讲的确实在理”这样的doc。分词方法大致分为两种:基于词典的机械切分,基于统计模型的序列标注切分两种方式。
原文链接:
https://mp.weixin.qq.com/s?__biz=MzA4OTk5OTQzMg==&mid=2449231335&idx=1&sn=d3ba98841e85b7cea0049cc43b3c16ca
以上是关于学习基于Deep Learning的中文分词尝试的主要内容,如果未能解决你的问题,请参考以下文章
达观数据基于Deep Learning的中文分词尝试(上篇)
深度学习与计算机视觉(11)_基于deep learning的快速图像检索系统
deep learning framework(不同的深度学习框架)
“Physics-based Deep Learning”学习笔记
Deep Learning for EEG-Based Preference Classification in Neuromarketing文章精读导读,深度学习在神经营销中基于脑电的偏好分类