专访冯志伟:NLP 研究尚处于初级阶段,未来将属于年轻一辈
Posted AI科技评论
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了专访冯志伟:NLP 研究尚处于初级阶段,未来将属于年轻一辈相关的知识,希望对你有一定的参考价值。
计算语言学是一门结合计算机和语言学的交叉领域。在这一领域,有这样一位极为罕见的文理兼通、跨学科的研究型专家。他既懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、文字学、音韵学和普通语言学,深研过汉、英、法、德、俄、日等语言的语音、词汇和语法的自动处理,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,完成各种研究任务。他在不同学科、不同语言研究中都取得重要的成就,分别成为这些学科的学术带头人。
这是冯志伟教授今年获得 CCF-NLPCC 杰出贡献奖的得奖理由。作为中国最早进行计算语言学研究的元老级人物之一,冯志伟教授目前为北京大学、浙江大学、中国传媒大学、大连海事大学兼职教授,杭州师范大学高端特聘教授。
在 18 岁以优异成绩考入北京大学地球化学专业之后,他在北大图书馆偶然看到美国语言学家乔姆斯基 (N. Chomsky)的论文《语言描写的三个模型》(Three models forthe description of language),被乔姆斯基在语言研究中的新思想所吸引,继而转到语言专业从事文科类的语言学学习。
在 1964 年考上北京大学语言学理论的研究生后,他将研究生毕业论文的题目定为《数学方法在语言学中的应用》,在我国语言学研究中,首次系统地、全面地来研究数理语言学这个新兴学科。
文革之后,他又以优异的理科成绩考上中国科学技术大学研究生院信息科学系的研究生,又开始了理科学习。
1978 年,冯志伟教授去往法国格勒诺布尔理科医科大学应用数学研究所 (IMAG)自动翻译中心(CETA),师从法国著名数学家、国际计算语言学委员会主席沃古瓦(B.Vauquois)教授,研究数理语言学和机器翻译问题,研制了世界上第一个汉语到多种外语的 FAJRA 机器翻译系统。
他于 1981 年回国,在中国科学技术信息研究所计算中心担任机器翻译研究组组长。
回国之后,他所做的主要研究工作如下:
1981 年在计算机科学杂志上,从数学的角度,首次系统分析乔姆斯基的形式语言理论。
1983 年发表文章在国内首次系统地介绍泰尼埃的依存语法,推动了国内对于依存语法的研究。
1985 年研制成功世界上第一个中文术语数据库。
1985 年提出潜在歧义理论,为汉语歧义结构的排歧建立了行之有效的形式化方法。
80 年代:写出了中国第一本数理语言学专著;出版了中国第一本现代语言学流派的专著;提出术语形成经济律,并用 FEL 公式来描写这个定律;首次发表文章系统地分析齐普夫定律来龙去脉,开国内计量语言学和数理语言学研究之先河。
90 年代用德文出版了汉字的专著,2017 年先后出版了希腊文和英文的汉字专著。
翻译出版「自然语言处理综论」的大部头专著,出版「自然语言计算机形式分析的理论与方法」的大部头著作,出版中国第一部「现代术语学引论」专著,主持和参与多个有关术语和信息处理的国家标准的研制。
连续五年主持国际标准 information and documentation: romanization ofChinese 的研制。
「老骥伏枥,志在千里。」冯志伟教授年近八十,仍笔耕不辍,活跃在科研第一线,积极推动计算语言学的发展。就在今年,在 79 岁高龄,他已经发表 9 篇中文论文,《机器翻译是人工智能皇冠上的明珠》一文成为他发表的第 400 篇中文论文,并被《语言战略研究》2018 年第 5 期用作「卷首语」。
以下为雷锋网 AI 科技评论与冯志伟教授的对话实录,六十年研究,冯志伟教授见证了计算语言学在中国的逐步发展与壮大,也对中国的年轻一代充满希冀。
1. 您进行计算语言学研究的契机是什么?能谈谈您这些年的研究历程吗?
冯志伟:我于 1957 年进入北大,最初学习地球化学专业,研究地球上的元素分布。那时候,我对自然界的矿物很感兴趣,比如各种石头、宝石等。由于元素种类、晶体结构不同,石头的颜色各异,我想研究这些元素是如何分布的,这本身具有实用价值,可以指导地质工作,也比较有意思。
当时北大比较开放,除了老师讲课,还有其他获取知识的方式。在图书馆,我看到乔姆斯基在《InformationTheory》上的文章《语言描写的三种模型》,这三种模型(马尔可夫模型、短语结构模型、转换模型)都用数学方法描述语言现象。语言具有文化色彩,如何让它跟数学产生关联,这是一件非常有意思的事情。进一步,我得到消息,美国在 1954 年就用计算机将俄文自动翻译成英文。
乔姆斯基的论文以及美国的俄英翻译系统的研制让我展开无尽想象——能不能用数学的方法来处理、帮助机器翻译呢。这方面的研究当时是语言学界在做,因此我下定决心转行研究语言学。真正从事语言学研究之后才知道,这并不像我所想的那么简单。语言跟人的思维有关,它又是人类几千年文化传承的产物,与自然现象不同,是非常复杂的问题。
我 1964 年考上研究生,花了两年左右的时间,想出了描述语言的数学结构模型的基本轮廓。1966 年,发生文化大革命,没法再继续研究。1967 年,毕业之后我离开北大去云南教中学物理。直到 1977 年,邓小平主张发展科学,高等院校重新招生,但是那时候是面向理科招生,因此我决定考取中国科技大学信息科学系研究生。1978 年我考上研究生之后,科研形势变好,之后就被公派到法国留学。
我在中学时就把俄语学得差不多了,去北大之后又自学了英文、德文,到法国又学习了法语。我与在法国留学期间的老师——沃古瓦(B.Vauquois)教授商量之后,决定做一个汉语翻译系统,把中文翻译成外文(英、法、德、日、俄)。
从法国学成归来以后,我最早在中国科学技术信息研究所计算中心担任工程师,随后,被调入国家语言文字工作委员会语言文字应用研究所(后更名为教育部语言文字应用研究所),那之后,我先后到德国夫琅禾费研究院(FhG)新信息技术与通信系统研究所、德国特里尔大学语言文学院、德国康斯坦茨高等技术学院国际术语学和应用语言学中心(CiTaL)、桑夏自然语言处理研究院、韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)进行学习和工作。
2. 这些年的研究生涯中,哪一成果您觉得最具代表意义?
冯志伟:我在法国留学期间的导师沃古瓦(B.Vauquois)教授是法国著名数学家、国际计算语言学委员会第一届主席。跟他商量之后,我决定研制上面所说的汉语翻译系统,把中文翻译成五种外文(英、法、德、日、俄)。
那时候的理论根据,基本上围绕乔姆斯基理论展开,他的短语结构语法用来分析英文、法文很合适,但分析中文有一个很大的问题——短语结构语法太简单。后来我提出「多叉多标记树模型」(Multiple-labeled and Multiple-branched Tree Model,MMT),可以解决他的理论难以解决的中文问题。多叉多标记树理论对语言在形态、句法、语义、逻辑等方面进行多角度的分析,分了很多层次。MMT 模型是我对 NLP 最大的一项贡献,一直到现在,NLP 学界基本没有跳出形态、句法、语义、逻辑这个框架。当然,这一成果跟我的老师分不开,他指导我做到了相当深的程度。
3. 我国计算语言学经历了怎样的发展历程?
冯志伟:中国的计算语言学研究,大致分为如下三个时期:
萌芽期
1954 年,美国研制出第一个俄英机器翻译系统,中国就开始注意到这个问题。在 1956 年国家科学规划里,谈到机器翻译和自然语言的形式化研究。当时,科学院的一些研究人员已经认识到语言学科的数学模型研究,NLP这个学科开始萌芽,但还没有出现成果。
1959 年,我国研制出第一个机器翻译模型,将俄文翻译成中文,实现了从无到有的突破。那一段时期,我国以语言所和计算所为中心,开始准备研制英汉翻译系统并提出设计方案。国内如哈尔滨、广州等地有一些语言学与计算机的专家联合作战,攻关机器翻译。随着文化大革命的出现,国家停止了对科研的投入,NLP 的研究进度也开始放缓。
恢复期
文革结束之后,萧条了 10 年之久的 NLP 研究开始复苏。我国公派一批学生去国外学习,了解 NLP 最新进展,带回国外的先进理念。从 1976 年开始,持续到 80 年代末期,留学生学成归来之后,在国内积极开展工作。这段时期,中国积极与国际交流,将计算语言学由技术问题发展成一门学问。大概从 1982 年开始我参加了COLING-82的国际会议并发表论文,中国的学者逐渐出现在计算语言学顶级学术会议上。
发展期
1989 年以后,机器翻译从基于规则到基于语料库,开始走向工业应用,以翻译产品为主的公司出现。这段时期开始着重资源建设,例如收集数据,建立双语语料库。
2016 年以后,神经机器翻译的正确率可以达到 95% 以上。神经机器翻译出现之后,机器翻译开始实用化,国内科大讯飞、百度、搜狗、有道等纷纷推出机器翻译系统。
从国际上来看,计算语言学的发展与自然语言处理顶级会议 COLING 息息相关。
1989 年以前,基本上是基于语言学规则来进行机器翻译、信息检索、文本处理。这时候语言学家的知识与计算语言学密切联系,只需把知识形式化,用数学模型表达出来就可以。
1989 年以后出现重大转折,在1993年的机器翻译高峰会议(MT summit)上,提出如下观点,规则难以覆盖语言现象,我们不应仅仅从书本中获取知识,而应从真实的大规模语料库中获取。那之后,知识的提取不再借助于规则,而是基于真实的文本。这时候非常重视语料库的建设,注重知识的客观性。
这之后,信息抽取、数据挖掘以及语音识别普遍使用统计的方法。这一阶段,机器翻译的正确率从 60% 一跃提高到 80% 以上,我们看到了希望。
现在 COLING 的方向又变了,研究工作全是基于 CNN、RNN 等深度学习的方法。这些年间,学科经历了从书本到语料库,再到大型双语语料库的转变。
总结起来,大致分为这三个阶段:
第一阶段,基于规则的符号主义阶段。
第二阶段,基于语料库的经验主义阶段。
第三阶段,基于深度学习的阶段。
4. 目前国内在计算语言学研究上,有哪些不错的成果?
冯志伟:对深度学习在机器翻译中的改进,现在国内有一些工作做得比较不错。清华大学计算系刘洋主要做神经机器翻译,最近做了改进深度学习的方法,他的工作在国际上有一定影响力。邓力也是国际上知名的深度学习专家,华裔美国人,他们在合写《自然语言处理中的深度学习》一书,这具有国际水平。
在三、四十岁左右的年轻人中,有不少青年才俊。例如北大计算语言学研究所的孙栩,他最近获得 NLPCC 青年新锐奖,这几年也发表了不少文章,在自然语言处理上先后提出一系列新方法并获得突出效果。
1982 年,我作为唯一的一个中国代表参加 COLING,那也是中国计算语言学界第一次参加国际会议,近些年进步很快,像王海峰、周明等人进入了国际语言学会领导班子,甚至还带领国外向前走。
5. 结合您的研究生涯,目前我们对 NLP 的研究尚处于什么阶段?未来有哪些值得研究的方向?
冯志伟:从法国学成归来以后,我继续做过英汉、德汉、法汉、日汉系统,当时的问题是,系统在封闭领域内做得还不错,一旦开放,正确率可能就只能达到 50%-60%。当时,每做一个系统大概需要 3 年左右的时间,优化起来也很困难,这么低的正确率,根本不能为社会服务,这在当时是个相当痛苦的问题。
1993 年在日本神户召开的 MT summit 对我启发很大,当时提出基于统计的方法来进行机器翻译。那之后,我读了许多统计方面的文献著作,我与一些学者合作,系统正确率能达到 80% 左右。
我们应该对机器翻译的发展持乐观态度。现在神经机器翻译的正确率能够达到 98% 以上,是我们过去所没有想到的,这个成绩非常不错。
当然也不能过分乐观。现在这种做法存在一个问题,神经网络是个黑箱,虽然效果不错,但我们对运行机制不清楚,拿到社会上用也是很冒险的。这一点与我们早期做机器翻译不同,当时基于规则的方法虽然正确率不高,但每一模块的原理都非常清楚,哪块程序出现错误,需要在哪里进行调试一目了然。
咱们还得研究神经网络机器翻译的运行机制。当然,现在又有了一些解释,如 Word2vec,把词的分布看成向量,通过向量运算关系算出结果。但运算过程如何?仍然是个黑箱。咱们还得在这方面多花功夫,把原理弄清楚。
以机器翻译为例,现在对一些新闻类或者特定场景下的文本的翻译没有问题。但是对于有思想感情的文学作品,如何在翻译中体现出喜怒哀乐?人是有感情的,想要实现机器对感情的理解,这一点还做不到。另外,还有常识知识的引入。很多时候,翻译结果在语法上没有错误,但是缺乏常识。常识的形式化是一个没有解决的问题,虽然现在有了知识图谱,能够帮助我们进一步解决,但这仍然是一个非常艰巨的任务。
语言非常生动,有文化传统,我们对于语言要有敬畏感,要真正把它形式化,还有非常长的路要走。现在尽管非常繁荣,但是还没有到顶点。从理论上来看,我们还处在比较浅的初级阶段,虽然出版了一些很厚的大部头著作,但还是比较幼稚。想要真正了解语言的结构、运行机制,可能还需要几辈人的努力。
科学研究像一棵参天大树,有一些学科,如物理学、化学、语言学、文学、哲学都很发达,他们是很粗的枝干。还有一些刚刚发芽,我们这一研究,就是一个刚刚长出的芽,虽然现在是一颗幼芽,但它是学科交叉生出的枝节,是科学的生长点,可以充分发挥创造性,提出很多新的理论、方法。
现在政府也很重视 NLP,它是人工智能的一个重要分支,很多人在进行研究。我觉得这一领域值得年轻人投入,他们充满了智慧和激情,可以将这一领域做好。
6. 在计算语言学的发展过程中,学习语言学、计算机、数学三个方向的人,在学科的交叉融合上做得怎么?应该从哪些方面努力,促进学科发展?
冯志伟:NLP 是文、理、工结合的最佳范例,我们深入到语言内部看数学面貌已有 60 年历史。美国著名计算语言学家马丁•凯伊(Martin Kay)在 2005 年获得 ACL 终生成就奖的答谢辞中曾经说过这样的话:「计算语言学正在试图用计算的方式来研究语言学家们研究的问题」。这个说法我认为很深刻,我们应当把语言学与计算机科学紧密地结合起来,进一步推动自然语言处理的发展。
这三科目前主要的问题是互相学习、知识更新。现在这一领域的研究人员,特别是年轻人,比我们那时候要好。那时候,语言学家不懂统计学知识,只能提供语言学科的资料,现在大家基本上都会对其他学科有所了解。
最近几年情况比较好,学科之间有很多互动和交流,在国际、国内会议上,大家共聚一堂,讨论的主题基本接近,用的术语基本一致,有很多共同语言。现在固守某个领域的人已经越来越少。
当大家变成文理工兼通的人才,这样学科发展就会更快。这样的年轻人越来越多了,兼具跨学科思想与跨学科能力的人逐渐增加,这是非常好的现象。例如深度学习的方法,我们现在都在使用,对深度学习的理论探讨,对其运行机理的最后攻关,可能还要由语言学与计算机两个领域共同努力。
7. 传统语言学工作者,应该怎么帮助计算语言学研究?
冯志伟:这是一个比较大的问题。传统语言学的研究方法、目的跟我们完全不一样。他们的目的是找到一些语言规律,主要围绕把文章写得准确、鲜明、生动这三条原则。语言学家的研究没有形式化,他们往往对计算机运行机制不清楚,很难对计算语言学提供帮助。传统语言学要进一步发展,考虑之后如何将他们的研究与 NLP 结合,提供一些新的思想。
8. 这些年来,您翻译了许多大部头著作,也在写 NLP 相关教材,推动您进行这些工作的原因是什么?
冯志伟:NLP 是一门交叉学科,有完整的知识体系。在我看来,想要进行这种跨学科研究,最好先对这个交叉的领域有全面理解。语言工作者和计算机工作者对于对方领域的理解不够深入,在研究这一学科时,需要互相学习,进行知识更新。
我主张通过关注国外的进展,把优秀的总结性著作引入中国,把国内外的知识整合成一个系统用于授课,这就是我翻译并且亲自写大部头著作的动机。
通过这些工作,我基本上搭出了 NLP 研究的架子。对于目前存在什么问题,前人研究过什么问题,我们需要研究什么,具体的应用问题,这些我都一目了然。
一些博士生不太同意我这种观点,他们会说,要是先花一两年把学科钻研透再做研究,会造成成果延迟、影响力下降,现在都流行直接进入主题。确实,直接进入主题足够快,但这样的学生有一个问题,他对 NLP 知识体系的理解不够深入,只知其一不知其二,并不是一个很好的研究者。全面学好理论知识,对于你快速进入很窄的主题领域,会有启发作用。
写书和翻译属于基础建设,我们国家的 NLP 研究,除了要做好课题攻关解决具体问题,还得重视基础建设。
9. 对于计算语言学研究人员,您有哪些学习上的建议?
冯志伟:我还是坚持原来的看法,一定要把基础打好,不能急功近利。基础是做学问的根基,应当把数学、外语、计算机的基础知识掌握好。另外,要关心国际进展,经常浏览国外最新杂志,读完以后,争取有所突破。
新一代自然语言学家,一定要关注国内外最新杂志期刊,跟踪学科进展。作为研究者,一定要有意识地更新知识。例如进行语言学研究的人,想要进入计算语言学领域,一定要学一点数学、计算机知识,而且还要认真、深入地学,至少达到这两门课程的本科水平。
现在的年轻一代很幸福,国家给予各种机会和条件,可以申请资金,还有往前走的机会。他们可能不知道我们老年人的事情,那时候,由于中国社会的变化,我们的研究经历过许多曲折。我 1957 年从云南考入北大,那时候中国的环境主张读书,但慢慢,社会变动以后,就开始对认真读书的人进行批判。离开北大之后,因为种种原因,我不能再继续研究计算语言学,按照分配回云南教物理,后来国家主张科学研究,我又有机会去国外学习。我们这代人的经历比你们复杂得多,现在的年轻人应该好好珍惜机会。
10. 获得 2018 年 NLPCC 杰出成就奖,您对此有什么感受?
冯志伟:CCF(中国计算机学会)授予我杰出成就奖,我事先毫不知情。这个奖不能由本人申请,也不能由本人推荐,完全是背靠背进行的。我觉得CCF的这种评奖方式很好,做到了公平和公正。通过对我们老年人的评奖,可以看出学科的发展历史。
这个奖不是我一个人的,是整个学科共同奋斗的结果,学界承认了我们这 60 年来所做的工作,从我们做的工作可以看出学科的发展面貌。
希望 CCF 能继续保持对学科的鼓励,包括对年轻人的鼓励,有意识引导大家往这个方向发展,让 NLP 向前迈进。
我在 18 岁时对计算语言学产生热爱,现在已经 80 岁,由一个小孩儿变成老人。但是这 60 多年来,NLP 一直都是新兴学科,这说明学术是永恒的,学术像一棵永恒的大树,人的生命很渺小,跟科学发展不能比。所以,我们也不要因为目前所取得的点滴进步而沾沾自喜,一个人的成就与科学这棵参天大树相比,犹如沧海一粟,实在没有什么了不起。
后记:
1957 年,乔姆斯基把语言描述的三种模型写成了一篇通俗的语言学读物,这本著作出版之后,人们对他的思想展开激烈辩论,承认这一思想的伟大,他从此变得举世闻名。
在采访最后,谈到乔姆斯基对他的影响,冯志伟教授说道,「我在乔姆斯基还是一个小人物的时候就认识他,后来,他变成大人物以后,我仍然是一个小人物。」在 AI 科技评论看来,冯志伟教授对中国 NLP 的发展做出的贡献无可比拟,在 NLP 萌芽的这段时期,正是由于他们这些老一辈科学家的投入,我国的NLP 研究才得以繁荣至今。他口中的「小人物」,正是无数 NLP 后辈所敬仰的大人物。
以上是关于专访冯志伟:NLP 研究尚处于初级阶段,未来将属于年轻一辈的主要内容,如果未能解决你的问题,请参考以下文章