金融领域中文分词最强王者
Posted 万微OneVision
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了金融领域中文分词最强王者相关的知识,希望对你有一定的参考价值。
金融领域中文分词最强王者
中文信息处理是自然语言处理的分支,意在利用计算机对中文进行处理。和大部分西方语言不同,书面汉语的词语之间没有明显的空格标记,句子是以字串的形式出现,因此对中文进行处理的第一步就是自动分词。本文将简单介绍中文分词的算法类型,以及这几种分词工具的特性,最后将针对金融类的新闻语料,对这几种工具的分词效果进行比较。
一、中文分词算法类型
1.基于字符串匹配的分词方式
它是按照一定的策略将待分析的文本与一个完备的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。常见匹配方式如下:
a) 最大匹配法(包含正向、逆向、双向)
如对 “中华民族” 进行切分,当词典中既包含 “中华”,也包含 “中华民族”时,最大匹配法将切分出:“中华民族”,而不是 “中华”、“民族”
b) 最少切分
从正向和逆向最大匹配两者中选择词数较少的方案
2. 基于统计以及机器学习的分词方式
通过对语料中相邻出现的各个字的组合频度进行统计,计算其联合出现概率,当概率高于某一个阈值时,可判定该字组构成一个词。在分词阶段通过模型计算各种分词出现的概率,将概率最大的分词结果作为最终结果。
常用模型有:N元统计模型、HMM模型、CRF模型、神经网络模型及最大熵模型等。
二、分词工具简介
市面上优秀的中文分词工具有很多,基于字符串匹配的工具中比较常见的有:Paoding、Jieba(可选采用HMM发现新词)等;基于统计学习的工具有:语言云、BosonNLP、Stanford等。本文将主要介绍这几种工具。
1. Paoding
庖丁分词是基于lucene的中文分词系统的软件,有高效率和高扩展性。采用基于不限制个数的词典文件对文章进行有效切分,能够对词汇分类定义,对未知的词汇进行合理解析。
2. Jieba
结巴分词是国内程序员用Python开发的一个中文分词模块,支持最大概率法,HMM模型,索引模型,混合模型等四种分词算法,同时有词性标注,关键词提取,文本Simhash相似度比较等功能。
3. 语言云
语言云是由哈工大社会计算与信息检索研究中心研发的云端自然语言处理服务平台。后端依托于语言技术平台,为用户提供包括分词、词性标注、依存句法分析、命名实体识别、语义角色标注在内的丰富高效的自然语言处理服务。
4. BosonNLP
玻森专注于中文语义分析技术,有强大的半监督机器学习引擎,语义联想、句法分析等技术帮助解决中文语义分析需求。同时多个语义分析,从情感倾向、分类、聚类等多种维度帮助分析非结构化文本。
5. Stanford
Stanford分词是斯坦福大学自然语言研究小组推出的语法解析工具,可以解析句子结构,为句子中不同的成分打上成分标签,为分词单元打上词性标签,展示句子中某两个词之间的依赖关系,还可以树形展示句子的整体结构。
三、分词工具特性对比
四、分词效果对比
本次测试选取了多篇金融类的新闻作为测试语料,以北大现代汉语基本加工规范对语料进行的分词作为标准,用SIGHAN 分词评分脚本比较得到最终的分词精度:
(为了测试自建词库对分词的影响,特加入了 增加金融词库的Jieba 分词结果)
注:以上分词结果是基于金融类文章,对于其他类型的文章,以上分词工具可能会有更好的效果。
(由于Paoding是将所有可能成词的词语全部扫描出来,与其他系统输出规范不同,因而不参与准确率统计)
根据结果可以看出,Jieba在加金融词库后,对分词的精度有较大的提升。得益于优秀的算法,语言云在无需加入用户自建词库也能保证较高的精度。
各分词工具对于多数简单规范文本的分词已经达到很高的水平。但在仔细对比每个中文分词后,切分歧义词和发现未登陆词(即未在训练数据中出现的词)是影响分词准确度的两大因素。
1. 切分歧义
歧义词存在两种类型,一类属于机器形式的歧义,在真实语言环境下,只有唯一可能的正确切分结果,称其为伪歧义。另一类有两种以上可实现的切分结果,称为真歧义。由于真歧义数据无法比较正确或者错误。所以我们举例来比较各分词工具对伪歧义的处理效果。
歧义词:不大会
示例:不大会轻易使用高杠杆抄底
正确分词:不大会 轻易 使用 高杠杆 抄底
示例中几种分词工具对词语“不大会”都无法正确切分。
2. 未登录词
未登录词大致包含三大类:
a)新涌现的通用词
新思想、新事物所带来的新词汇,不管是文化的、政治的、还是经济的,在人们的生活中不断涌现。如:“大鳄”、 ”比特币”。
新词:“大鳄”, ”比特币”
示例:手握巨量比特币的资本市场大鳄能轻松操纵价格牟利
正确分词:手握 巨量 比特币 的 资本市场 大鳄 能 轻松 操纵 价格 牟利
示例中只有加了金融词库的Jieba、BosonNLP和语言云可以分出“比特币”,但对于“大鳄”,这几种分词工具都无法正确切分。
b)专业术语
一般指的某一行业各种名称用语,大多数为该领域的专业人士所熟知。这种未登录词理论上是可预期的,可以人工预先添加到词库中。如:“比特币“、”数字货币“、“杠杆率”,“逢高沽空”,“逢低买入”。
专业术语:“止损盘”、“平仓盘”
示例:引发更多高杠杆投资的“大妈们”止损盘与强制平仓盘涌现
正确分词:引发 更多 高杠杆 投资 的 “ 大妈 们 ” 止损盘 与 强制 平仓盘 涌现
示例中只有语言云正确分出“止损盘”,“平仓盘”,其他分词工具都分词错误,如Stanford分为:“止“ ”损“ ”盘”
c)专有名词
如中国人名、外国译名、地名、公司名等。这种词语很多基本上不可通过词典覆盖,考验分词系统的新词识别能力。如:“芝加哥期权交易所”,“摩根大通”。
专有名词:“摩根大通”
示例:前摩根大通首席股票策略师Tom Le坦言自己就是逢低买入比特币的激进投资者
正确分词:前 摩根大通 首席 股票 策略师 Tom Le 坦言 自己 就是 逢低买入 比特币 的 激进 投资者
示例中BosonNLP、Stanford 和Jieba(加金融词库)可以分出“摩根大通”,其他分词工具都分为“摩根” “大通”。
五、总结
从上述的分词结果来看,在针对特定的专业领域时,引入专业词库对分词精度的影响力,可能会比只研究算法带来更大的收益。在这种情况下,能够灵活加入用户词库且分词速度快、效率高的 Jieba 会是一个很好的选择。而对于普适性文章分词来说,各类分词工具都有较好的表现,此时功能的全面性将会成为使用者较大的考量。此时,使用者可以考虑选择支持情感分析,新闻分类、新闻摘要,文本聚类等功能的BosonNLP。
小编:瑞安
一个爱音乐、爱美剧,时刻幻想着在海边度假的典型摩羯大宅男。
因为文章篇幅的限制,很多信息无法进行拓展解释,如需了解更多关于分词的最新技术,可以扫码联系我们~
扫码关注了解更多金融资讯
Strategy and Customer Analytics Center
名字太长记不住?那就Call我们Fintech星人~
来自于平安金融壹账通的战略与客户分析中心,用精准的数据挖掘结合全新的战略分析,解决中小金融机构的痛点及问题。
SCAC
超一流的战略咨询团队,更是资深的数据挖掘客
万微 One Vision
每天推送行业最新资讯,让您一分钟了解 Fintech的千变万化。每周不定时推送一篇原创干货,让您在海量的讯息里体验金读。
万微
以上是关于金融领域中文分词最强王者的主要内容,如果未能解决你的问题,请参考以下文章