自然语言处理发展的四大阶段

Posted herosunly

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了自然语言处理发展的四大阶段相关的知识,希望对你有一定的参考价值。

  大家好,我是herosunly,985院校硕士毕业,现担任算法研究员一职。CSDN博客专家,2020年博客之星TOP。曾获得阿里云天池比赛第一名、科大讯飞比赛第一名、CCF比赛第一名等Top名次,拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。今天给大家分享的文章是自然语言处理发展的四大阶段,希望能对初学者有所帮助。

  自然语言处理研究的是自动的去理解与生成人类语言的算法。小到一个文本匹配的算法,大到机器翻译、对话系统、搜索引擎都能用到自然语言处理技术。自然语言处理的任务包括基础自然语言任务、信息抽取任务、文本生成任务和其他应用任务。

  那么自然语言处理的发展历程又是什么样呢?它究竟包含哪几个发展阶段呢?


文章目录

1. 基于规则的方法

  早在19世纪50年代,当计算机科学和人工智能刚刚兴起的时候,自然语言处理的研究领域就出现了用语言学家制定的规则来书写程序,从而完成语言理解和机器翻译等任务。那时候的程序包含很多条件语句。它们都是属于基于规则的系统。然而自然语言充满了歧义性,同样一个词可能有不同的意思,同样一个短语可能表达不同的看法,这些歧义性给语言学家书写规则提出了很大的挑战。很少有一套规则系统能够解决所有的歧义性。其中一个著名的案例发生在60年代,该任务是将俄语翻译成英语,原文的意思是精神很强大但肉体很虚弱:

  • The spirit is strong, but the flesh is weak.
  • The Vodka is good, but the meat is bad.

  然而基于规则的翻译结果却变成了烈酒喝起来很过瘾,但是肉做的不太好吃。这就体现了词语的多义性。比如spirit 这个词可以被翻译成精神或者烈酒,而flesh可以被翻译成肉体或者食用的肉。

2. 统计机器学习方法

  自然语言的歧义性远远不止这些词汇的歧义性,这些挑战也导致基于规则的系统在研究领域逐渐陷入了沉寂。

  20世纪80年代末开始,一些基于统计的机器学习的方法逐渐兴盛了起来,这些方法的大体步骤是:首先语言学家对数据进行手工标注,然后使用特征工程构建重要特征,并通过构建概率模型进行参数优化,从而得到结果(将概率最大的输出作为输出结果)。事实证明,统计机器学习的方法的效果远远高于语言学家制定的规则。在那个时代,语言学家扮演的角色从编写算法规则变成了数据标注。

  当时流传着一个著名的故事,就是IBM的一位资深学者声称每解雇一个语言学家,机器翻译的系统效果就能提升一些。

3. 浅层神经网络

  自然语言处理发展的第三个阶段,也就是神经网络的第一阶段:浅层神经网络。该阶段是从从2010年左右就开始了。随着算法、算力、数据(数字经济的三大核心要素)的不断发展,基于深度学习的神经网络模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。

我们当今的神经网络阶段。这个阶段是从2010年左右就开始了。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据

  自然语言处理发展的第三个阶段,是我们当今的神经网络阶段。这个阶段是从2010年左右到2017年左右。当时随着算法、算力、数据(数字经济的三大核心要素)的不断发展,深度学习的模型逐渐取代了统计学习方法,成为学术界和工业界的主流方法。本质上是通过大量的数据来训练神经网络,但由于三大要素到达了一定的瓶颈,构建的神经网络层数还比较浅,主要的表现形式为:MLP(多层感知机)、CNN(卷积神经网络)、RNN(循环神经网络)。相比于统计学习方法而言,省去了复杂且为手工的特征工程,大大提高了研发效率。

4. 深层神经网络(预训练模型)

  自然语言处理发展的第四个阶段,大约是从谷歌发明了Transformer结构开始的。从此开始,就可以先利用大量的无标注数据进行自监督学习。然后再使用少量的标注数据对下游任务进行微调(也称为迁移学习)。绝大多数的预训练模型都是基于Transformer模型发展起来的,比如BERT是只使用了Transformer的Encoder。


  预训练模型的本质是深层神经网络,也可能随着技术的发展,会产生新的学习范式或者模型。但万变不离其宗,所以初学者在学习之前一定要把握住学习的主要脉络,才能位于不败之地。

  最后分享几个自己精心创作的专栏:

  • Al比赛教程。分享各类Al比赛(阿里云天池、科大讯飞等)前几名队伍的成功经验,包括NLP,CV、语音、时序预测、信息安全等方向。其中也包括自己取得的阿里云第一名的经验分享。也包括打比赛提分的一些实用tricks ,从而更好的帮助新手入门数据科学竞赛。
  • 机器学习入门之工具篇。含了Python基础(运行环境、编程规范、基本语法)、Numpy、Pandas、Linux和Git常用命令、TensoFflow、Pytorch的入门教程以及最常用的软件和网站。希望能对初学机器学习以及入门AI比赛的同学有所帮助。
  • Python爬虫实战教程。爬虫各种实战项目,使得快速上手爬虫,能对各种自动化操作得心应手。
  • Python新手快速入门。首先讲解核心的学习方法,帮助初学者提升学习效率;然后讲解Python的重要知识点,并通过实例帮助新人快速掌握该部分。并且将详细讲解Python常用库的主要内容,例如Numpy、Pandas、文件操作和非常常用的正则表达式等库。
  • 考名校研究生经验分享。总结了很多独到的思维方式和提分方法,其中几个小技巧就能帮助提高至少5到10分。

以上是关于自然语言处理发展的四大阶段的主要内容,如果未能解决你的问题,请参考以下文章

自然语言处理在医学领域的应用

基于深度学习的自然语言处理—走进自然语言处理

基于深度学习的自然语言处理—走进自然语言处理

基于深度学习的自然语言处理—走进自然语言处理

自然语言处理(NLP)入门

探秘人工智能 | 自然语言处理