解开“机器的因果”：人机自然交互为何成为阿里AI观的起点

Posted 2020-10-29

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了解开“机器的因果”：人机自然交互为何成为阿里AI观的起点相关的知识，希望对你有一定的参考价值。

很快《复联3》会上映，大伙喜闻乐见的钢铁侠又要来了。

围绕钢铁侠，有个有意思的现象值得我们开开脑洞：应该每个人都想要战甲里搭载的AI程序“贾维斯”，但所有人都在担心会不会有一天出现想要毁灭世界的AI机器人，奥创。

很多大人物，比如说霍金，都在提醒我们要警惕AI的潜在威胁。但仔细想想，贾维斯和奥创到底有什么区别呢？只是单纯的善恶之分？可善恶又由谁来分辨？

机器应该用智能服务人类，但不能有“过分的智能”，堪称AI领域的“先有鸡还是先有蛋”问题。

或许可以切换到另一种思路去思考这件事：贾维斯之所以让人喜欢，是因为他能读懂和理解钢铁侠的各种需求，令主动提供服务。也许我们在心底期待的，只是机器可以与人进行无成本的沟通与理解，而不是要拥有独立的人格与智慧。

技术分享图片

这样的逻辑下，AI服务于人类的基本价值就落到了那个既复杂又简单的名词上：人机交互。

今天我们来探讨这个问题，是因为刚刚清华大学与阿里巴巴宣布达成战略合作，共同成立清华大学- 阿里巴巴自然交互体验联合实验室。这个实验室的目的在于探索“下一代人机交互”的未来。

据悉，双方将以“人”为中心，探索“人-机器-环境”之间的关系，让机器以更自然的方式与人类互动、服务人类。

技术分享图片

跟众多企业与大学联合设立的实验室相比，清华大学- 阿里巴巴自然交互体验联合实验室的独特之处在于，它专注于解决一个十分急迫的问题。这个问题涉及广阔的产业与市场可能，甚至关乎于马云所说要让“机器更像机器，人更像人”的AI价值观。

让我们先从自然交互今天面临的一些问题说起。

“五感”合一：人机交互的拐角在何处？

在智能音箱“狂轰滥炸”过之后，或许很多人认为，今天的AI带来的自然交互能力已经相当成熟。但事实上，大伙可能还是有点乐观了。

当然，AI带来的语音识别、语义理解、NLP解决方案，以及花样繁多的传感与机器视觉技术，正在打开人机交互的新脑洞：过去只能通过键盘、鼠标、触屏进行命令输入的机器，正在开始以自然方式与人沟通。

比如我们已经可以语音控制音箱、电视和家居，人脸识别装置也开始普及到生活当中。

但这还远远不够。回想一下，为什么我们有时候打字说不明白的事，就想要电话沟通？有时候电话沟通也不行，必须当面谈谈才可以？

这是因为，人与人之间的交互是相当复杂的。不仅仅是语言在起作用，音色音调、表情、肢体动作，甚至一个人隐含的情绪、气势，都是人们之间进行自然交互的一部分。

但很显然，今天的AI还做不到这点。

技术分享图片

举个例子，今天搭载语音交互的空调开始成为新时尚。用语音操纵空调当然相比遥控器方便了很多，但也无非就是换了一种遥控方式而已。消费者获得的实质价值并没有提升。但如果空调不仅能听懂你，还可以看到全家人的位置、穿了多少衣服，还可以感知到屋子里的温度、湿度，甚至每一个用户的体表温度。那么空调就可以自主分析制冷模式，给每个人提供最适合的降温方案。毕竟空调病或者冷气吹太多导致的感冒，发生几率将大大降低。

这就是给机器加上“五感”，进行多模态综合感知的魅力——机器不仅是接受遥控的一方，它可以主动理解人类，通过智能运算得出更好的主动服务方案。

此外，目前AI在处理自然交互的时候，完全依托于计算机科学的知识系统。这就导致其会忽视人类在情绪、心理甚至隐喻层面的表达需求——听起来好像有点太难为人家机器了，但是没办法，精益求精嘛……

再举个例子，人的语言中是带着各种情绪的。虽然说一样的话，但附带的情感可能完全不同。我们回家让音箱放一首歌，可能是因为我们非常开心想要来点助兴的音乐，也可能是有事不顺心，想要安慰一下自己。

假如机器可以听出来人类语言中附带的情绪，可以观察到用户是低沉还是兴奋。那么给出的服务将完全不同，一句来自机器的问候下，可能很多让人不开心的事都烟消云散了。

技术分享图片

模态综合与心理解读，就像这两座大山一样横亘在AI自然交互的家门口，他们是问题，同时也是拐点和机会。而此次阿里与清华的合作，核心诉求正是要搬走这两尊山神。

在探索“下一代人机交互”的路上，清华与阿里巴巴将在情感认知计算、实体交互、多通道感知等领域开展研究，不但要让让机器具备听觉、视觉、触觉等综合性的“五感”，还要加强其识别理解人类情感的能力。

假如能通识五感，理解情绪的自然交互方式出现，机器智能将开启的，绝不仅仅是一扇大门。

被忽略的商业价值：“五新”增长元点藏于万物智能

去年年底的时候，我们报道过阿里巴巴十二位科学家对今年科技走势的预测。其中科学家们有一点共识非常值得注意：语音、视觉、传感连接为一体的多模态机器交互技术，将在今年催生万物智能的爆发。

几天之前，阿里在深圳云栖大会上宣布，IoT将成为继电商、金融、物流、云计算之后的第五条主赛道。显然从产业层面印证了科学家们对今年的判断。

这或许说明了，新一代的人机交互并不只是停留在实验室里。而是正在以高调姿态走入产业世界，甚至成为“五新”战略的重要支点。

举个简单的例子，我们就能看到多模态的自然交互在实际生活中多么重要。阿里有一个在地铁站进行语音识别购票的案例。其要解决的核心问题是地铁站中环境嘈杂，要准确识别到购票者语音很不容易。这就要求机器除了进行语音交互，拥有优质的声纹识别、降噪算法之外，还需要进一步确认买票人。阿里的解决方案是在售票机前加入人脸识别装置，通过人脸和唇形识别来判断究竟是谁在买票。

技术分享图片

显然，结合了语音交互和机器视觉、人脸识别的机器智能，很简单就解决了一个生活中极重要的问题，而这个问题似乎又无法用其他方式来解决。事实上，新零售、新制造、新金融的世界中，近乎有无数场景等待着多模态交互的机器智能去攻破。

因为结合了语音、视觉、传感，甚至机器嗅觉和机器触觉的IoT设备，可以无限接近真人来为用户提供服务。在零售和金融服务中，高效的多模态交互结合综合计算、智能推荐技术，可以极大提高服务效率与商业精准度。

而制造业中让机器与人类多模态交互，达到机器像人体一样听话，那么工业效率的提升近乎是难以估计的。家庭、驾驶、城市服务等场景中，如是案例更是不胜枚举。

“五新”想要由旧变新，那么万物智能似乎是不可替代的支撑点。在阿里选择与清华共同研发下一代人机交互的时候，一盘新的商业增长棋局似乎也被阿里带到了我们面前。

机器的因果：我们到底需要AI做什么？

更进一步说，自然交互的价值也不仅仅在于商业世界。就像文章开头中描述的那样，人类最初对AI的恐惧与担忧，是萦绕在AI发展过程中永恒的达摩克利斯之剑。

到底如何达成消解恐惧与技术突破的双赢呢？从率先开展的自然交互进击中，我们似乎能读到一丝阿里的技术观：以人为本，驯服技术，让机器始终是机器。

或许我们经常会联想到AI的失控，是因为很多研究都是以技术为中心。那么随着技术的一点点拓展，很多问题也随之而来：机器道德、黑箱难题、数据灾难，等等。而假如我们以“人到底需要AI和机器来做什么”为出发点，或许就会发现整个技术逻辑在变得不同。

马云说“过去三十年我们让人像机器，接下来三十年我们让机器像人。但归根结底要让人更像人，机器更像机器”，其中隐藏的就是阿里技术逻辑的出发点和归途。

技术分享图片

交互升级，是人类与机器相处的本源命题，从杠杆、轴承、开关，到键盘、鼠标、触屏，交互在一步步向人类舒服的姿势靠拢。而接下来，语言、手势甚至表情，当然是我们控制机器的更合理方式。

这条路上我们最终得到的，是能更好服务人类的机器，而不是人类无法理解的机器。这是一种我们很少去思考的AI观：但假如我们认真思考一下到底发展AI、探索AI是为了什么，或许答案其实很简单：为了让人类过的更好。

只要永远以人为本，机器的因果问题也就迎刃而解。或许这种技术信仰会让少部分科幻和阴谋论爱好者失望，但对于绝大多数人类来说，这是不需要选择的选择——机器会理解我们，并且我们不需要担心ta。

以上是关于解开“机器的因果”：人机自然交互为何成为阿里AI观的起点的主要内容，如果未能解决你的问题，请参考以下文章

IDST-自然语言处理专家-人机交互-北京/杭州/西雅图

DurIAN：基于时序注意力神经网络的语音合成系统 | 腾讯AI Lab

2020智源-京东多模态对话挑战赛开战产学研联合推动AI技术发展

技术大咖齐聚爱数智慧人机交互技术论坛 | CNCC2021

中文分词做不好，人机自然语言交互当然难以取得突破