自然语言处理的技术难点与解决方案

Posted 德塔大数据研究院

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理的技术难点与解决方案相关的知识,希望对你有一定的参考价值。

我们谈到大数据算法,自然会想到最常用的自然语言处理。可以说目前非常多的应用场景都涉及到这个部分。例如:舆情系统,智能客服,服务满意度调查,社区民生分析等等。都是自然语言处理技术的使用场景。


很多人觉得不就是个分词+语义分析吗?有什么技术?其实不然,这部分确实存在着一些难题,我们今天就一起来探讨一下。


我们做自然语言的处理(以中文为例)都需要分析什么呢?无外乎“字”“词”“句”“文”

所以我们首先会用到分词算法,因为自然语言的分析不太容易从字来分析,因为总会有些上下语意存在,比如“好”字是正向还是负向?单讲这个字好像是正向意义,但是还有语境,比如一个人恶狠狠的说:“好”。这就是负面的情绪。


所以我们做自然语言的分析,先从最小语意单元“词”来说起。


一  我们通过几个实力来看看分词的技术难点有哪些

  1. 北京德塔精要信息技术有限公司,这个要进行分词,就出现了第一个问题,颗粒度问题。

    例如:北京德塔精要信息技术有限公司,信息技术,德塔精要,北京德塔,有限公司等等我们觉得很明确的分词,但接下来就出现问题了,例如:技术有限,精要信息等不准确的分词。

  2. 同义词和近义词判断问题:比如:年报和年度报告这样的同义词好判断,德塔精要和北京德塔这样的专有名词不好判断。

  3. 上下文依赖性问题判断:比如上文中提到的“好”,还有例如:什么意思,小意思,意思意思等等

  4. 文中的指代词代表什么的判断:比如:我司决定中的我司代表什么公司,甲方承担一切责任的甲方代表什么公司,等等

  5. 转意词的判断:美元持续疲软的疲软是指什么意思?


二  上面介绍了词的关键难点,下面我们再来了解一下句子处理的关键点

  1. 歧义的语句排查与判断,例如:两个公司的CTO,到底是两个CTO还是一个人兼任了两家公司的CTO又或是一个公司有两个CTO?。

  2. 短句问题带来的问题判断与排除:限量的网球拍卖了。是”网球拍“卖了,还是”网球“”拍卖“了。


三  相关领域的语言习惯知识图谱构建难度

  1. 专有名词库的构建

  2. 行业词汇转译词库的构建

  3. 关系关联知识构建

    ……


那么,我们利用大数据该如何解决以上的问题呢?


首先,我们从词,句,文,三个阶段去分析

词分析分词,词性,词的颗粒度,词所在语句的位置,同义词,转意词

句分析:句法结构,包含词的重要性分析,文本纠错,省略转换,代词转换,语意主题分析,词串结构分析等。

文分析:关键信息提取,情感意见分析,知识图谱,文档内容分析等等。


然后,我们需要根据场景构建语言模型库

例如:计算机专业领域文本语言模型,医疗专业领域文本语言模型等等,这是从行业角度来构建的文本语言模型。还有从场景角度来构建文本语言模型,例如:评论类别语言模型,新闻类别语言模型,合同类别语言模型等等。


利用机器学习实现泛化能力

泛化能力(generalizationability)是指算法对新样本的适应能力,俗称“举一反三”的能力,传统的做法都是建立词汇库,然后进行算法比对,那么,这个词库就需要频繁的更新,效果也会逐渐降低。所以,我们让程序自动优化模型,自主学习,增强泛化能力,持续提升文本语言分析效果。



《浅谈大数据第一期》

德塔 | 专家团队

干货 | 共61篇

版权所有©️德塔大数据研究院

转载请注明出处


DaaS慧报(有温度的大数据报告)





大数据落地方案












【大数据解决方案】




大数据思想



































主编:林帅兵  | 德塔大数据研究院院长

责任编辑:孙一欣

责任美编:彭    琦

德塔大数据研究院专家团队

师文轩 德塔大学名誉校长

感谢德塔精要研发中心全体人员

合作与投稿:linshuaibing@detadata.com

以上是关于自然语言处理的技术难点与解决方案的主要内容,如果未能解决你的问题,请参考以下文章

中文分词中的技术难点

一文了解自然语言处理的每个范畴用到的核心技术,难点和热点

一文看懂自然语言处理NLP(4个应用+5个难点+6个实现步骤)

开发在线文档时,这个技术难点你解决了吗?

从原则方案策略及难点阐述分库分表

NLP(自然语言处理)技术的简介