从海伦凯勒学习法谈谈自然语言处理

Posted 2021-04-12 周教授谈人工智能

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了从海伦凯勒学习法谈谈自然语言处理相关的知识，希望对你有一定的参考价值。

本文讨论的不是语音识别，机器翻译等的自然语言处理应用，而是想探讨一下更为深层的，机器如何理解自然语言的问题。

相信每个人都知道海伦凯勒的故事。她在19个月大的时候不幸因为高烧失去了视力和听力，但是依靠老师朋友，更重要的是自身的努力学会了说话和语言，并以优异的成绩从哈佛毕业成为了一名文学家。

海伦的学习法分成四个步骤：

1、每天用三个小时自学。

2、用两个小时默记所学的知识。

3、再用一个小时的时间将自己用三个小时所学的知识默写下来。

4、剩下的时间她运用学过的知识练习写作。

从海伦说话的视频来看，她说的语言其实常人很难懂，需要通过她的闺蜜逐句翻译。但这并不妨碍她自由表达自己的意思。自然语言在本质上属于人类社会因交流需要而产生的符号系统，它的规则和推理特征鲜明。然而另一方面，人类语言的规则往往隐藏于语言当中，有很多含糊不清的地方，规则的制定并不容易。这就是为什么我们常人理解一件事情，需要联系上下文调查背景信息才能搞懂的原因。从海伦的学习法来看，她的主要时间是用在对既有知识的理解上。不仅有步骤2“重复的过程”，步骤3“抽象概括的过程”，也有步骤4“扩展应用的过程”。

图1: word2vec

近年来，词向量(word2vec)等语言知识的分布式表示开始流行,这种分布式表示能够很自然的接入到人工神经网络，进行数据归纳学习。人工智能的自然语言处理利用了大规模语料库和统计机器学习方法，在模型生成过程中自动评估特征的权重，省去了很多人工编制规则的负担。这一方法在人脸识别等图像处理应用上表现优秀，然而自然语言更为复杂，有上下文和时间轴的影响。

比如说，小张问小李“你吃午饭了吗？”，小李回答“我早饭吃多了。” 理解这其中的“言下之意”需要具备以下知识：“早饭是在午饭前吃的”，“早饭需要时间消化”，“如果早饭吃多了，午饭会吃不下”。如果要分辨小李是否说了真话，那还要了解“现在的时间到底是几点”，“小李和小张的关系如何”等信息。这其中交谈对象，环境和时间都可以变化，这些因素和交谈内容互相影响，导致了不同的理解。现有的人工智能的自然语言处理流程是固定的，这就给计算机理解自然语言带来了很大的困难。

从海伦凯勒学习法谈谈自然语言处理

图2: 由外向里，由里向外的知识传播途径

然而，人与人之间在语言交流中的相互理解都有麻烦，更何况是计算机呢？回到海伦的学习法，我们其实看到了一个知识由外向里，又由里向外的传播过程，通过这个学习过程，知识才在海伦的大脑中固化下来。人工智能也可以这样考虑处理自然语言。

首先，知识由外向里输入的过程。如果对机器中保存的知识更新只停留在人工输入阶段，那么机器就永远无法实现像人一样的自动学习与进化。所以这里需要采用人工神经网络等联结主义的方法，让计算机不断自动去学习新的知识，更新已有的知识。

其次，知识由里向外输出的过程。计算机的学习结果是否正确，对人类是否有危害，我们可以通过环境激励等行为主义的方法来影响计算机的认知，来“调教”人工智能。这样，经过数代的更新和迭代，就有可能产生出计算机自己的知识体系和语言模式。

当然，这种方法也可能有个问题。因为计算机的语言模式是建立在人工神经网络自我学习的基础上的，它的学习过程对于人类来说无法理解。我们既要让人工智能实现进化，摆脱“人工智障”的阴影，也不能完全放弃人类对它的控制。

篇末彩蛋：

计算机发展这么快，我们个人呢？马上让人工智能工具帮到你，赶上时代的快车！每一位阅读本文并且点击使用《小赛机器人》的伙伴，都会获得三个月免费使用的特权。《小赛机器人》提供语音转文字，图像转文字，各种语言翻译，信息共享，邮件转送等诸多功能。如同Word，Excel等办公软件一样，《小赛机器人》也会成为个人工作生活的帮手。《小赛机器人》由微信小程序写成，点击下面图片即可使用，简单方便。

小赛机器人智能助手小程序

以上是关于从海伦凯勒学习法谈谈自然语言处理的主要内容，如果未能解决你的问题，请参考以下文章

C语言手册

吴裕雄--天生自然python机器学习：使用K-近邻算法改进约会网站的配对效果

（TA养成计划C语言篇）新的开始，谈谈怎样学习

简单谈谈编程语言

C语言用三点求三角形面积用行列式怎么写不要海伦公式

谈谈我在自然语言处理入门的一些个人拙见