自然语言处理的技术难点与解决方案
Posted 德塔大数据研究院
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理的技术难点与解决方案相关的知识,希望对你有一定的参考价值。
我们谈到大数据算法,自然会想到最常用的自然语言处理。可以说目前非常多的应用场景都涉及到这个部分。例如:舆情系统,智能客服,服务满意度调查,社区民生分析等等。都是自然语言处理技术的使用场景。
很多人觉得不就是个分词+语义分析吗?有什么技术?其实不然,这部分确实存在着一些难题,我们今天就一起来探讨一下。
我们做自然语言的处理(以中文为例)都需要分析什么呢?无外乎“字”“词”“句”“文”
所以我们首先会用到分词算法,因为自然语言的分析不太容易从字来分析,因为总会有些上下语意存在,比如“好”字是正向还是负向?单讲这个字好像是正向意义,但是还有语境,比如一个人恶狠狠的说:“好”。这就是负面的情绪。
所以我们做自然语言的分析,先从最小语意单元“词”来说起。
一 我们通过几个实力来看看分词的技术难点有哪些
北京德塔精要信息技术有限公司,这个要进行分词,就出现了第一个问题,颗粒度问题。
例如:北京德塔精要信息技术有限公司,信息技术,德塔精要,北京德塔,有限公司等等我们觉得很明确的分词,但接下来就出现问题了,例如:技术有限,精要信息等不准确的分词。
同义词和近义词判断问题:比如:年报和年度报告这样的同义词好判断,德塔精要和北京德塔这样的专有名词不好判断。
上下文依赖性问题判断:比如上文中提到的“好”,还有例如:什么意思,小意思,意思意思等等
文中的指代词代表什么的判断:比如:我司决定中的我司代表什么公司,甲方承担一切责任的甲方代表什么公司,等等
转意词的判断:美元持续疲软的疲软是指什么意思?
二 上面介绍了词的关键难点,下面我们再来了解一下句子处理的关键点
歧义的语句排查与判断,例如:两个公司的CTO,到底是两个CTO还是一个人兼任了两家公司的CTO又或是一个公司有两个CTO?。
短句问题带来的问题判断与排除:限量的网球拍卖了。是”网球拍“卖了,还是”网球“”拍卖“了。
三 相关领域的语言习惯知识图谱构建难度
专有名词库的构建
行业词汇转译词库的构建
关系关联知识构建
……
那么,我们利用大数据该如何解决以上的问题呢?
首先,我们从词,句,文,三个阶段去分析
词分析:分词,词性,词的颗粒度,词所在语句的位置,同义词,转意词
句分析:句法结构,包含词的重要性分析,文本纠错,省略转换,代词转换,语意主题分析,词串结构分析等。
文分析:关键信息提取,情感意见分析,知识图谱,文档内容分析等等。
然后,我们需要根据场景构建语言模型库
例如:计算机专业领域文本语言模型,医疗专业领域文本语言模型等等,这是从行业角度来构建的文本语言模型。还有从场景角度来构建文本语言模型,例如:评论类别语言模型,新闻类别语言模型,合同类别语言模型等等。
利用机器学习实现泛化能力
泛化能力(generalizationability)是指算法对新样本的适应能力,俗称“举一反三”的能力,传统的做法都是建立词汇库,然后进行算法比对,那么,这个词库就需要频繁的更新,效果也会逐渐降低。所以,我们让程序自动优化模型,自主学习,增强泛化能力,持续提升文本语言分析效果。
《浅谈大数据第一期》
德塔 | 专家团队
干货 | 共61篇
版权所有©️德塔大数据研究院
转载请注明出处
DaaS慧报(有温度的大数据报告)
大数据落地方案
【大数据解决方案】
【】
大数据思想
主编:林帅兵 | 德塔大数据研究院院长
责任编辑:孙一欣
责任美编:彭 琦
德塔大数据研究院专家团队
师文轩 | 德塔大学名誉校长
感谢德塔精要研发中心全体人员
合作与投稿:linshuaibing@detadata.com
以上是关于自然语言处理的技术难点与解决方案的主要内容,如果未能解决你的问题,请参考以下文章