文本挖掘:灵玖大数据汉语智能分词技术

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘:灵玖大数据汉语智能分词技术相关的知识,希望对你有一定的参考价值。

  汉语分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。

  汉语自动分词是目前中文信息处理领域公认的一大难题,也是自然语言理解研究领域中最基本的一个环节。中文自动分词就是将用自然语言书写的文章、句段经计算机处理后,以词为单位逐词输出,为紧随其后的加工处理提供先决条件,如图1所示。可见,中文自动分词是自然语言处理的第一个步骤,其重要性勿庸置疑。

  然而,汉语自动分词存在很大的挑战。命名实体识别、新词处理和歧义消解是三个最根本又很棘手的问题。这里所谓的命名实体指的是人名、机构名、地名以及其他所有以名称为标识的实体。例如,“计算技术研究所”,“斯琴高娃”,“石家庄”,要是在训练集中没有包含这些词的先验知识,那么将它们完整从句子中切分出来是很困难的。新词发现也叫做未登录词。这些词的出现是由于数据集范围的局限性以及新词的产生。它们包括了部分的命名实体、网络用语等,如何对这些未能从数据集中获得知识的词切分,依旧值得认真研究。常见的两种汉语分词的歧义有:1)交集型切分歧义。例如,给定一个输入句子——“结合成分子”,由于其中的“结合”、“合成”、“成分”和“分子”都能构成词,因此对切分来说造成了一定的困难;2)组合型歧义。例如“门把手弄坏了”,由于字之间的不同组合,可能存在的分词结果有:“门/把/手/弄坏了”和“门/把手/弄/坏/了”。尽管存在这么多的难以处理的问题,新的分词方法还是在不断被发掘。

  而灵玖大数据汉语智能分词系统是在多年研究基础上,耗时一年研制出了基于条件随机场(Conditional Random Field,简称CRF)模型,该系统的功能有:中文分词;词性标注;未登录词识别。分词准确率接近99%,具备准确率高、速度快、可适应性强等优势;特色功能包括:切分粒度可调整,融合20余部行业专有词典,支持用户自定义词典等。

  大数据汉语智能分词系统充分解决了中文分词里三个主要的问题:

1、词性标注能对汉语语言进行词性的自动标注,它能够真正理解中文,自动根据语言环境将词语诸如“建设”标注为“名词”或“动词”。

2、人名地名机构名识别能够自动挖掘出隐含在汉语中的人名、地名、机构名,所提炼出的词语不需要在词典库中事先存在,是对语言规律的深入理解和预测。

3. 新词发现:从文件集合中挖掘出内涵的新词语列表,可以用于用户专业词典的编撰;还可以进一步编辑标注,导入分词词典中,从而提高分词系统的准确度,并适应新的语言变化。


以上是关于文本挖掘:灵玖大数据汉语智能分词技术的主要内容,如果未能解决你的问题,请参考以下文章

灵玖Nlpir Parser智能挖掘汉语精准分词

灵玖NLPIRParser大数据挖掘系统智能摘要

大数据信息挖掘中文分词是关键

文本挖掘之词频分析“结巴”分词

灵玖软件:NLPIR技术助力行业大数据智能挖掘

大数据文本分析:灵玖自然语言中文语义分词系统