自然语言处理的发展与应用
Posted 萤火虫沙龙3
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理的发展与应用相关的知识,希望对你有一定的参考价值。
自然语言处理(Natural Language Processing,简称NLP)是语言学和计算机科学相互结合的产物。美国计算机科学家Bill Manaris曾说,“自然语言处理可以被定义为研究在人与人交流中以及在人与计算机交流中的语言问题的一门学科”。
20世纪初,现代语言学之父索绪尔奠基了符号学理论,使语言学研究成为一门科学。上世纪90年代开始,基于语料库构建和统计的机器学习的自然语言处理兴起,并逐渐进入繁荣期。统计机器翻译大幅超越传统基于句法分析的机器翻译就是这个阶段的代表性成果。进入21世纪以来,伴随着互联网普及,自然语言处理技术成为搜索、推荐、知识挖掘等各种互联网应用的基础技术,应用范围非常广泛。自然语言处理技术除了在学校和科研机构中进行,在各类互联网企业中也广泛展开。
2006年,加拿大多伦多大学教授Geoffrey Hinton发表了深度学习算法研究的新进展。接下来几年,深度学习首先在语音识别、图像识别领域取得了重大突破。随后,深度学习在机器翻译领域也取得重大进展,让机器翻译效果大幅提升,进而被尝试用于自然语言处理领域中的各种任务。苹果、微软、亚马逊、Google等企业相继发布了人机自然语言对话系统框架,自然语言处理迎来新篇章。
费尔迪南·德·索绪尔
Ferdinand de Saussure
自然语言处理的发展与应用
深度学习的广泛应用
随着深度学习的发展,神经网络模型也被成功应用在自然语言处理中。深度学习的一个重要特点是降低人工特征构造和抽取的繁重工作,取而代之的是,通过灵活配置的模型结构,让模型从数据中自动抽取各种关联特征。例如,在很多应用中,用自动学习得到的词向量替代之前的one-hot作为模型的输入,能更好地表征词与词之间的相似性,提升对新词的表征能力。
在模型方面,从早期的DNN模型,到CNN模型,进而到RNN模型,深度学习模型逐步可以对应输入信号的全连接关系、局部关系和序列关系。LSTM通过在循环神经网络中添加门机制,避免了梯度消失的问题。注意力模型模拟了人聚焦的过程,极大提升了序列到序列模型的能力,在机器翻译任务上取得了非常好的结果;深度强化学习将神经网络和强化学习相结合,提高模型能力,被成功运用在对话管理等任务中。
深度学习模型的应用对训练数据的依赖非常高,很多领域的实验都证明,标注的训练数据规模越大,标注质量越高,最终得到的模型效果越好。基于这个基础,基于深度学习技术的自然语言应用更多地会成为拥有数据和计算能力的行业巨头的特权。但是即便对于行业巨头,标注训练数据仍然是一个费时费钱的任务。针对这个困境,对半监督学习、无监督学习的研究正受到越来越多的关注。
基于场景的应用探索不断涌现
在过去20年里,自然语言处理技术已经成为互联网应用不可缺少的基础技术。搜索引擎是自然语言技术成功应用的经典案例,围绕搜索引擎出现的推荐系统、广告系统都集成了大量自然语言处理技术。解决跨语言信息获取的机器翻译也取得了很大进展。
近几年,自然语言交互系统成为了新的热点。虽然通用的自然语言理解和对话管理距离实际应用还有很大差距,但针对若干特定场景和任务的人机对话系统已经逐渐进入人们的日常生活。人机对话系统的第一轮爆发是伴随智能手机到来的,苹果手机搭载的Siri把虚拟个人助理推进普通大众的视野,后续微软的Cortana,Google的Google Assistant陆续推出,国内也有多款手机助理已经推出。
随着技术进步,自然语言处理领域也出现了一些有趣的新任务,如机器阅读理解,并让机器人参加人类的考试。智能客服,将人类的服务经验沉淀在系统中并让机器部分代替人的工作。相信未来还有更多新鲜有趣的应用场景会不断涌现。
产业链逐步深入与完善
AI的火热吸引了大量企业涌入,国内相关的生态链也逐步形成。一方面以BAT为代表的互联网巨头纷纷投身AI,全面拉开了人工智能产业链的布局,覆盖语音/图像等交互技术、大数据、内容资源等方面。另一方面,国内专业技术企业则在各个垂直领域深入布局。一个产业的形成,除了核心技术,还需要上下游的配合,芯片和麦克风厂商、行业应用的厂商、终端产品的生产厂商等等。
自然语言处理的挑战与发展
任何技术的应用都不是一蹴而就的,自然语言处理也是如此,深度学习推动了它的快速发展,同时也面临一些挑战。技术与产品相辅相成,互相反哺,新市场需求也推动着自然语言处理朝着场景化和平台化的方向发展,交互式智能服务成为一大风口。
深度学习面临挑战
虽然深度学习方法能够更好地处理复杂的模式识别问题,但其在自然语言处理领域的应用也面临着一些挑战:
第一,深度学习模型一般需要大量的数据的进行训练,词汇量随着数据规模的增加而增加,这通常会存在训练数据无法覆盖的情况,如何处理长尾问题是一个普遍存在的挑战;
第二,各类智能终端计算能力有限,而深度学习模型往往需要强大的计算资源,这需要尽可能压缩模型的大小以及提高硬件的计算能力;
第三,截至目前,深度学习模型并没有良好的理论基础,模型的可解释性差,这阻碍了自然语言处理技术在医疗、金融等一些关键领域的大规模应用。
从研究角度,将基于符号的规则方法与深度学习方法相结合是解决该问题的有效策略。基于符号的规则方法可以直接利用自然语言处理中基于符号形式的知识,符号表征易于解释和操作,需要的训练数据少,而神经网络中的向量表征对歧义、噪声具有一定的鲁棒性,泛化性较好,能够一定程度上衡量结果的不确定性。如果能把符号数据和向量数据结合起来,可以实现优势互补,提升目前深度学习方法的可解释性,减少对大数据的依赖。
深度学习中的监督学习方法与强化学习、无监督学习相结合是另一趋势。过去几年深度学习需要依赖大量有标注的数据,但数据标注费时费力,而获取大量的无标注数据却比较容易。如何利用大量的无监督数据提升系统性能将是一个重要的趋势。此外,相比无监督学习,强化学习可以利用较弱的反馈信号,同时能够直接优化学习的目标,因此将传统自然语言处理任务转化为适用于强化学习的序列决策任务也将是一个重要的方向。
交互式智能服务的风口即将到来
人工智能驱动企业运营模式变革,从PC互联到移动互联网再到物联网,企业跟客户的触点越来越丰富和多样化。未来企业的竞争力在于服务能力,“服务智能化”成为必然趋势,知识驱动的交互式智能服务是未来几年的进化方向。
要做到交互式智能服务,首先,要进行以语音为主的交互方式的接入,并推进对话能力的大规模定制。其次,要构建企业专有知识体系,企业拥有自身专有知识,将知识结构化,并最终使它能够自动交互,就能够极大节省生产力,提高工作效率。对企业而言,其在产品知识、售后方案、人事政策、财务政策等方面都拥有相应的知识,这是一个结构复杂的知识体系。思必驰北京研发院将以此为发力点,从人机交互方面切入,推动传统行业的变革。过去的知识服务是为搜索引擎而优化的,未来,知识服务必然要考虑到交互式的查询和需求。
自然语音处理的应用需要知识来驱动,企业最终会拥有自己的专用数据和知识,并最终会生成相应的自然语言理解模型、对话管理的模型等,帮助企业将自身的知识转化成可交互式的。未来将是知识驱动的交互智能,不同企业/行业专用知识资源的开放合作,能够加快建立有机生态。
一直以来,中润普达都致力于大数据人工智能领域的研发和技术创新,以技术驱动为中心,坚持“把中文认知计算革命进行到底”。作为国内基于中文认知计算的大数据应用专业服务机构,运用自主研发的中文大数据认知矩阵(信源矩阵、分词矩阵、规则矩阵)计算技术,配合丰富的业务场景模型和中文大数据动态平衡模型,将深度语义分析系统作为核心技术为众多行业服务,构建各行业的专属语义模型,自动提取专有词汇和核心语义,建立垂直行业知识图谱。该技术以特有的结构化方式分析文字含义,深入到各类非结构化数据自我训练,可以全面帮助政府、企业和机构开启大数据决策、预测、运营、精准营销和效能管理。
结语:
虽然近年来深度学习促进了自然语言处理技术的发展,但是未来仍然面临着巨大挑战,这既要求基础研究上深度学习方法与其它方法相结合,同时也需要产业上通过场景化的应用逐步拓展应用边界。我们相信未来自然语言处理技术将给人类生活带来更大的改变,相辅相成,相伴而行。
以上是关于自然语言处理的发展与应用的主要内容,如果未能解决你的问题,请参考以下文章