从海伦凯勒学习法谈谈自然语言处理

Posted 周教授谈人工智能

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从海伦凯勒学习法谈谈自然语言处理相关的知识,希望对你有一定的参考价值。

本文讨论的不是语音识别,机器翻译等的自然语言处理应用,而是想探讨一下更为深层的,机器如何理解自然语言的问题。




相信每个人都知道海伦凯勒的故事。她在19个月大的时候不幸因为高烧失去了视力和听力,但是依靠老师朋友,更重要的是自身的努力学会了说话和语言,并以优异的成绩从哈佛毕业成为了一名文学家。


海伦的学习法分成四个步骤:

1、每天用三个小时自学。

2、用两个小时默记所学的知识。

3、再用一个小时的时间将自己用三个小时所学的知识默写下来。

4、剩下的时间她运用学过的知识练习写作。


从海伦说话的视频来看,她说的语言其实常人很难懂,需要通过她的闺蜜逐句翻译。但这并不妨碍她自由表达自己的意思。自然语言在本质上属于人类社会因交流需要而产生的符号系统,它的规则和推理特征鲜明。然而另一方面,人类语言的规则往往隐藏于语言当中,有很多含糊不清的地方,规则的制定并不容易。这就是为什么我们常人理解一件事情,需要联系上下文调查背景信息才能搞懂的原因。从海伦的学习法来看,她的主要时间是用在对既有知识的理解上。不仅有步骤2“重复的过程”,步骤3“抽象概括的过程”,也有步骤4“扩展应用的过程”。


图1: word2vec


近年来,词向量(word2vec)等语言知识的分布式表示开始流行,这种分布式表示能够很自然的接入到人工神经网络,进行数据归纳学习。人工智能的自然语言处理利用了大规模语料库和统计机器学习方法,在模型生成过程中自动评估特征的权重,省去了很多人工编制规则的负担。这一方法在人脸识别等图像处理应用上表现优秀,然而自然语言更为复杂,有上下文和时间轴的影响。


比如说,小张问小李“你吃午饭了吗?”,小李回答“我早饭吃多了。” 理解这其中的“言下之意”需要具备以下知识:“早饭是在午饭前吃的”,“早饭需要时间消化”,“如果早饭吃多了,午饭会吃不下”。如果要分辨小李是否说了真话,那还要了解“现在的时间到底是几点”,“小李和小张的关系如何”等信息。这其中交谈对象,环境和时间都可以变化,这些因素和交谈内容互相影响,导致了不同的理解。现有的人工智能的自然语言处理流程是固定的,这就给计算机理解自然语言带来了很大的困难。


从海伦凯勒学习法谈谈自然语言处理

图2: 由外向里,由里向外的知识传播途径


然而,人与人之间在语言交流中的相互理解都有麻烦,更何况是计算机呢?回到海伦的学习法,我们其实看到了一个知识由外向里,又由里向外的传播过程,通过这个学习过程,知识才在海伦的大脑中固化下来。人工智能也可以这样考虑处理自然语言。


首先,知识由外向里输入的过程。如果对机器中保存的知识更新只停留在人工输入阶段,那么机器就永远无法实现像人一样的自动学习与进化。所以这里需要采用人工神经网络等联结主义的方法,让计算机不断自动去学习新的知识,更新已有的知识。


其次,知识由里向外输出的过程。计算机的学习结果是否正确,对人类是否有危害,我们可以通过环境激励等行为主义的方法来影响计算机的认知,来“调教”人工智能。这样,经过数代的更新和迭代,就有可能产生出计算机自己的知识体系和语言模式。


当然,这种方法也可能有个问题。因为计算机的语言模式是建立在人工神经网络自我学习的基础上的,它的学习过程对于人类来说无法理解。我们既要让人工智能实现进化,摆脱“人工智障”的阴影,也不能完全放弃人类对它的控制。


篇末彩蛋:

计算机发展这么快,我们个人呢?马上让人工智能工具帮到你,赶上时代的快车!每一位阅读本文并且点击使用《小赛机器人》的伙伴,都会获得三个月免费使用的特权。《小赛机器人》提供语音转文字,图像转文字,各种语言翻译,信息共享,邮件转送等诸多功能。如同Word,Excel等办公软件一样,《小赛机器人》也会成为个人工作生活的帮手。《小赛机器人》由微信小程序写成,点击下面图片即可使用,简单方便。

小赛机器人 智能助手


以上是关于从海伦凯勒学习法谈谈自然语言处理的主要内容,如果未能解决你的问题,请参考以下文章

C语言 手册

吴裕雄--天生自然python机器学习:使用K-近邻算法改进约会网站的配对效果

(TA养成计划C语言篇)新的开始,谈谈怎样学习

简单谈谈编程语言

C语言用三点求三角形面积 用行列式怎么写 不要海伦公式

谈谈我在自然语言处理入门的一些个人拙见