超越图像识别,机器看得懂动作！IBM和MIT鼓捣着让机器识别动态行为

Posted 2021-04-07 AI商业报道

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了超越图像识别,机器看得懂动作！IBM和MIT鼓捣着让机器识别动态行为相关的知识，希望对你有一定的参考价值。

高层速读

关键信息：MIT-IBM Watson AI Lab正在利用百万规模的动作视频数据集训练模型，想要教机器识别游泳、关门等动作，该数据集叫做Moments in Time，可在其网站上下载使用。

关键数据：Moments in Time内含了100万个标注动作的视频，每个动作类别的视频数量均在2000个以上，每段视频的时间均为3秒。

关键意义：教机器识别动作，将是人工智能的下一重大进展。

我们在看视频时，很容易理解每一段视频中所描绘的动作，比如一扇打开的门，一本打开的书，一朵盛开的鲜花或是一只正在打哈欠的狗。而计算机模型却不能识别到物体的「动作」。

这也是MIT-IBM Watson AI Lab正在研究的项目，该实验室推出了一个百万规模的视频理解数据集：Moments in Time。它内含100万个标注了动作的视频，如拍手、开门、游泳、降落等，每个动作类别的视频数量均在2000个以上，每一段视频的时间是相同的，均为3秒。

▲数据集动作分类

Gutfreund 与麻省理工学院计算机科学与人工智能实验室的首席研究科学家Aude Oliva，是该项目的负责人，同时，他们也是MIT-IBM Watson AI Lab的执行主任。

Gutfreund 和Aude Oliva正在利用这些视频片段来推动人工智能的下一重大进展：教机器识别动作。

超越图像识别,机器看得懂动作！IBM和MIT鼓捣着让机器识别动态行为

▲Gutfreund 和Aude Oliva

如何教机器识别动作呢？

一、从动态的场景中学习

研究人员说，他们的目标是提供深度学习算法，对视觉和听觉生态系统进行大量的覆盖，从而让模型能够学习非监督方式教授的信息，并推广到新的情境和任务中。

“当我们不再是婴儿时，我们环顾四周可以看到人和物体在移动，我们听到人们和物体发出的声音，我们有很多视觉和听觉的体验。人工智能系统也需要以同样的方式进行学习，并通过动态视频来获取信息。”Oliva说。

视频数据集中的每一个动作类别都超过2,000个视频，这些片段使计算机模型能够更好地了解关于特定行为和事件的多样性。

Oliva补充道：“该数据集可以作为开发人工智能模型的新挑战，它可以扩展到人类日常工作的复杂性和抽象推理的水平。不同的事件包括了不同的人物，对象，动物和自然环境，它们可能在时间上是对称的。举个例子，打开意味着以相反的顺序关闭。它们可以是暂时的，也可以是持续的。”

Gutfreund 、Aude Oliva以及MIT和IBM的其他研究人员，经常会在一起讨论技术问题，比如如何选择标注的动作类别、在哪里可以找到合适的视频，以及如何组合数组等，如此人工智能系统方可毫无偏见地学习。

该团队还开发了机器学习模型，用于扩展数据收集。 Oliva说：“我们的合作很好，因为我们有同样的热情和相同的目标。”

二、增强人类智能

该实验室的一个关键目标是开发人工智能系统，用于解决更复杂的问题，并从强大和持续的学习中受益。“我们正在寻找新的算法，使其可以从有限的数据中学习，以增强人类的智力，”IBM Research首席运营官Sophie V. Vandebroek说。

超越图像识别,机器看得懂动作！IBM和MIT鼓捣着让机器识别动态行为

除了将各自的技术和科学优势结合起来，IBM还为MIT的研究人员带来了大量资源，未来10年，将投资2.4亿美元用于人工智能研发。根据研究人员的说法，MIT-IBM对AI的研究是有益的。

IBM对MIT在开发基于视觉的人工智能系统很感兴趣，并称这是一项新奇的事业。

现在，二者的合作已经达到了100万个动作视频数据集，用户可以访问他们的网站，下载数据集和深度学习模型，用以识别物体动作的研究。”

到目前为止的定性结果显示，其模型能够很好地识别动作额框架和闭合度，但当类别细化或存在背景混乱的情况时，它们会出现问题。Oliva称，麻省理工学院和IBM研究人员已经提交了一篇文章，描述了在数据集上训练的神经网络模型的性能，而这个模型本身被共享的观点深化过的。

Oliva还提到：“IBM研究人员给我们提供了一些想法，让我们在医疗保健和体育等领域增加动作的类别，扩大了我们的视野，他们还给了我们关于AI如何从商业和消费需求中产生影响的想法。”

Moments in Time数据集的第一版是最大的带有人类注释的视频数据集，涵盖了可视的和可听的短事件。所有数据都被标记在339个不同类别中，包括广泛的常用动词或者活动标签。

研究人员打算生成更多具有各种抽象层次的数据集，以作为开发学习算法的基础，同时让这些算法可以在事物之间建立类比，通过想象合成新事件，并完成场景解释。

“换句话说，他们才刚刚开始，”Gutfreund说，“我们希望Moments in Time数据集能够让模型充分理解视频中的动作和动态。”

分享这篇文章

与同仁共同探讨AI行业动向

入群通知：为方便交流与资源共享，我们建立了AI商业报道-人工智能交流群，感兴趣的朋友可以添加小编微信入群，微信搜索：1186614053

往期文章

行业：

应用：

公司：、、

人物：、

突破：

大会：、、

报告：、

「AI商业报道」现已入驻

知乎号 | 头条号 | 百家号 | 网易号 | ZAKER

AI商业报道

推进中国人工智能行业发展

以上是关于超越图像识别,机器看得懂动作！IBM和MIT鼓捣着让机器识别动态行为的主要内容，如果未能解决你的问题，请参考以下文章

让图像识别准确率瞬间下降40个点，「江苏卷」版ImageNet你考得过吗？

机器学习什么是GAN 小孩都看得懂的 GAN

MIT健身神器：穿上就能“透视”肌肉，发力情况看得一清二楚，动作标准度提升15%...

外行人都能看得懂的机器学习，错过了血亏！

小白都能看得懂的java虚拟机内存模型