NLP（自然语言处理）领域的现状与展望｜中美AI大师巅峰对话

Posted 2021-04-12 海致星图

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了NLP（自然语言处理）领域的现状与展望｜中美AI大师巅峰对话相关的知识，希望对你有一定的参考价值。

NLP（Natural Language Processing，自然语言处理）是人工智能的一个子领域，指机器理解并解释人类写作与说话方式的能力。

微软创始人比尔·盖茨曾经表示，“语言理解是人工智能领域皇冠上的明珠”。微软全球执行副总裁沈向洋也在2017年底的公开演讲时说：“懂语言者得天下……下一个十年，人工智能的突破在自然语言的理解……人工智能对人类影响最为深刻的就是自然语言方面”。自然语言是人类智慧的结晶，自然语言处理是人工智能中最为困难的问题之一，而对自然语言处理的研究也是充满魅力和挑战的。

我们究竟何时才能摘下这个“人工智能领域皇冠上的明珠”？围绕这个问题，两位自然语言处理领域的领军人物：宾夕法尼亚大学教授Dan Roth和微软亚洲研究院副院长周明给出了他们的洞察与见解。

NLP领域发展现状如何？

早期的语言处理系统如20世纪70年代的SHRDLU，处于一个有限的“积木世界”，运用有限的词汇表会话可以较好地工作，但是当把这个系统拓展到充满模糊与不确定性的现实环境中时，则显得举步维艰。

近年来，随着自然语言处理技术的发展，出现了一批基于该技术的应用系统，例如IBM的Watson在电视问答节目中战胜人类冠军；苹果公司的Siri个人助理被大众广为测试；谷歌、微软、百度等公司纷纷发布个人智能助理；科大讯飞牵头研发高考机器人……但相比于性能趋于饱和的计算机视觉和语音识别技术，正如周明所说：自然语言处理因技术难度太大、应用场景太复杂，研究成果还未达到足够的高度。

周明认为，目前自然语言处理依然存在的主要难点有：

1、词语实体边界界定

自然语言是多轮的，一个句子不能孤立的地看，要么有上下文，要么有前后轮对话，而正确划分、界定不同词语实体是正确理解语言的基础。

目前的深度学习技术，在建模多轮和上下文的时候，难度远远超过了如语音识别、图像识别的一输入一输出的问题。所以语音识别或图像识别做的好的企业，不一定能做好自然语言处理。

2、词义消歧

词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象；指代消歧是指正确理解代词所代表的⼈或事物。例如，在复杂交谈环境中，“他”、“it”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解，目前还无法对此进行清晰的建模。

3、个性化识别

自然语言处理要面对个性化问题，自然语言常常会出现模凌两可的句子，而且同样一句话，不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。

Dan Roth表示：在各种专业应用中，必须要选择正确的自然语言模型，没有任何单一模型可以解决自然语言领域中所遇到的所有问题，自然语言处理没有一个可以解决所有问题的魔术盒子存在，你必须要把所有相关的知识库放进盒子里，选择对的算法，并且针对性的处理特定问题，那么这个盒子最后才有作用。这种现状加大了技术落地的难度。

2018年，我们可以期待NLP取得哪些进展？

对于自然语言处理能否在2018年涌现新进展，Dan Roth和周明也都表示出充分的信心。

Dan Roth说：“利用知识库，未来自然语言处理应用会协助企业把专业知识转成特定的自然语言处理模型。利用这些模型，自然语言处理技术就能成为很好的工具，影响更深层次的人类生活。”

周明表示：垂直领域有一定的保护门槛（比如有一些不公开的数据），在这样的领域可以做一些知识图谱的探索，还可以针对本领域特点，做一些特殊的优化和有的放矢的研究，而不是使用通用的自然语言技术。这样就可能会产生一个专业的知识图谱，以及基于专用图谱之上的自然语言理解的技术，最后提升整个领域的生产力。

此外，神经网络机器翻译、阅读理解、聊天对话、机器客服和创作辅助这些应用在今年和明年就会有很多地方普及，相关的应用场景包括搜索引擎、个人助手、语音助手、机器翻译，还有个人制作音乐，个人制作新闻、撰写网络小说、问答系统等等。

对于如何解决自然语言处理的主要问题，周明表示有三个值得尝试的方向：

第一，上下文的建模需要建立大规模的数据集。比如多轮对话和上下文理解；数据标注的时候要注意前后文。没有这样的数据，很难取得突破。

第二，强化学习很重要。我们需要根据用户的反馈倒推模型并做参数修正，使模型更加优化。现在强化学习刚刚开始用在自然语言领域，性能并不稳定，但在未来很有机会。

第三，要引入常识和专业知识，并把这些知识构建好，这样就能更加精准地回答问题。没有人能证明现在常识知识用在语言问答和搜索中的作用有多大，所以，我们需要一个测试集来检验结果。这个测试集要专门测上下文和常识，可以让我们要不停用新模型（比如强化学习或者知识图谱）去试错，来看系统性能能不能提升。

■ ■ ■

从符号主义和连接主义的对立走向合作，从静态分析走向交互，从语法和浅层语义走向深层语义，从功能主义走向认知和情感体验……自然语言处理技术的科研创新一直精进不休，我们相信在不久的将来，机器将更加善解人意。

-End-

部分内容摘自 DeepTech深科技：中美两位 AI 大师的“巅峰对话”：为何 NLP 领域难以出现“独角兽”？

---------------------------------------

人工智能、大数据的前沿资讯

深度的商业内容解析