资讯|Microsoft如何使用AI过滤掉视频通话中的打字，吠叫和其他噪音

Posted 2021-04-01 AICUG人工智能用户组

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了资讯|Microsoft如何使用AI过滤掉视频通话中的打字，吠叫和其他噪音相关的知识，希望对你有一定的参考价值。

编译: Florence Wong - AICUG

微软上个月宣布，Teams（Slack，Facebook Workplace和Google的Hangouts Chat的竞争对手），每天的活跃用户已超过4400万。这个里程碑甚至埋没了其“今年晚些时候”发布的一些新功能。最简单明了：一种举手就可表明您有话要说的功能；一个离线和低带宽支持功能，保证即使您的互联网连接不畅或没有互联网连接，也可以阅读聊天消息并撰写回复；还有一个可选择将聊天弹出到单独的位置窗口的功能。但是其中一项功能，即实时噪声抑制功能，脱颖而出 - 微软演示了AI如何在通话过程中最大程度地减少背景干扰噪声。

我们都有这样的经历。多少次您曾要求某人静音或多少次嘈杂的地方移开？实时噪声抑制将过滤掉在会议中用键盘打字的声音，沙沙作响的土豆片商业包装袋的声音和在后台运行的吸尘器声音。AI将实时消除背景噪音，保证您在电话通话中只听到语音。但是它是如何工作的呢？我们与Microsoft Teams小组项目经理Robert Aichner进行了交谈，以找出答案。

随着冠状病毒危机迫使数百万人在家学习和工作，协作和视频会议工具的使用呈爆炸式增长。Microsoft正在将Teams作为针对企业和消费者的解决方案，作为Microsoft 365订阅套件的一部分。该公司依靠其机器学习专业知识来确保AI功能是其最大的特色之一。当它最终到来时，实时背景噪声抑制将为充满分散注意力的企业和家庭带来福音。此外，Microsoft如何构建此功能还对其他利用机器学习的公司具有指导意义。

固定噪声与非固定噪声

当然，多年来，Microsoft Teams，Skype和Skype for Business应用程序中一直存在噪声抑制功能。其他通信工具和视频会议应用程序也具有某种形式的噪声抑制。但是这种噪声抑制涵盖了固定噪声，例如在后台运行的计算机风扇或空调。传统的噪声抑制方法是查找语音停顿，估计噪声的基线，并假设连续的背景噪声不会随时间变化，然后将其过滤掉。

展望未来，Microsoft团队将抑制非平稳的噪音，例如狗吠或有人关门。“那不是固定的，” Aichner解释说。“您无法估计语音暂停。现在，机器学习可以让您做的是创建具有大量代表性噪声的大型训练集。”

实际上，微软今年早些时候在GitHub（https://github.com/microsoft/DNS-Challenge/tree/master/datasets）上公开了其培训集，“以促进在该领域的研究社区的发展。”虽然第一个版本是公开可用的，但是Microsoft正在积极致力于扩展数据集。公司发言人证实，作为实时噪声抑制功能的一部分，数据集中的某些类别的噪声不会在通话中被滤除，包括乐器，笑声和唱歌。

微软不能简单地隔离人类的声音，因为其他噪音也会以相同的频率发生。在语音信号的频谱图上，不需要的噪声出现在语音之间以及与语音重叠的间隙中。因此，几乎无法过滤掉噪音-如果您的语音和噪音重叠，则无法区分两者。取而代之的是，您需要事先训练神经网络了解噪声和语音的外观。

语音识别与噪声抑制

为了阐明自己的观点，Aichner将用于噪声抑制的机器学习模型与用于语音识别的机器学习模型进行了比较。为了进行语音识别，您需要记录大量用户在对着麦克风讲话，然后让人们通过写下所说的内容来标记语音数据。与其将麦克风输入映射到文字，在噪声抑制中，你会尝试从嘈杂的语音中提出为纯净的语音。

Aichner说：“我们训练了一个模型来理解噪音和语音之间的差异，然后令该模型试图仅保持语音。” “我们有培训数据集。我们采用了数千种不同的扬声器和100多种噪音类型。然后我们要做的是将没有噪音的干净语音与噪音混合在一起。因此，我们模拟麦克风信号。然后，您还向模型提供清晰的语音作为’基准事实’。因此，您要询问模型“请从这些嘈杂的数据中提取干净的信号，他看起来就是如此。”这就是您在监督学习中训练神经网络的方式，基本上您已经掌握了一些’基准事实’。”

对于语音识别，基准事实就是对麦克风说的话。对于实时噪声抑制，基准事实是没有噪声的语音。通过提供足够大的数据集（在这种情况下为数百小时的数据），Microsoft可以有效地训练其模型。“即使我的声音不是训练数据的一部分，它也可以使我的声音泛化并降低噪音，” Aichner说。“实时地说，当我讲话时，模型可以从噪音中提取干净的语音，然后将其发送给远程人员。”

挑战性

将噪音抑制功能与语音识别进行比较，即使需要实时处理，噪音抑制也更容易实现。那么为什么以前没有做过呢？微软的竞争对手可以快速重建它吗？Aichner列出了构建实时噪声抑制的挑战，包括查找代表性数据集，构建和缩小模型以及利用机器学习专业知识。

代表性数据集

我们已经谈到了第一个挑战：代表性数据集。团队花费了大量时间来弄清楚如何产生声音文件，以例证典型通话中发生的情况。

他们使用有声读物来代表男性和女性的声音，因为“语音特征在男性和女性的声音之间确实有所不同”。他们将YouTube数据集与带有标签的数据一起使用，这些数据指定了录制内容，例如键入内容和音乐。然后，Aichne的团队使用合成器脚本以不同的信噪比将语音数据和噪声数据合并在一起。通过放大噪音，他们可以模仿现实通话中可能发生的不同情况。

但是有声读物与电话会议完全不同。难道不会影响模型，且不会影响噪声抑制？

“那是一个好点，” Aichne承认。“我们的团队也做了一些录音，以确保不仅在我们自己训练生成的合成数据上，而且还在实际数据上起作用。但是，要获得那些真实的录音肯定要困难得多。”

隐私权限制

Aichner的团队不允许查看任何客户数据。此外，Microsoft内部有严格的隐私准则。“我不能只是简单地说，‘现在我记录每一次会议。’”

因此，该团队无法使用Microsoft Teams通话。即使他们可以（例如，如果某些Microsoft员工选择参加会议记录），当确实产生令人分心的噪音时，仍然会有人要记下来。

“所以，这就是为什么我们现在需要做一些小规模的工作，以确保我们使用各种设备和扬声器等来收集这些真实的录音，” Aichner说。“然后我们要做的就是将其作为测试集的一部分。因此，我们有一个测试集，我们认为它更能代表真实的会议。然后，我们看看如果使用特定的训练集会对测试集的有怎样的效果？所以理想情况下，是的，我希望有一个训练集，它是所有Teams的录音，并且有人们正在听的各种噪音。我们只能通过获取其他一些开源数据集，因为我无法轻易获得相同数量、相同容积的数据。”

我再次提出了要点：使用Teams记录Microsoft员工的选择性加入计划会对功能产生什么影响？

“您可能会说它会变得更好，”AIchner说。“如果您有更具代表性的数据，它可能会变得更好。因此，我认为这是一个好主意，将来可以看看我们是否可以进一步改善。但我认为，到目前为止，即使仅获取公共数据，它的效果也很好。”

云与边缘

下一个挑战是弄清楚如何构建神经网络，模型架构应该是什么以及如何迭代。机器学习模型经历了很多调整。这需要大量的计算。Aichner的团队当然依赖Azure，并使用许多GPU。即使进行了所有计算，使用大量数据训练大型模型也可能需要花费几天的时间。

“很多机器学习都发生在云中，”AIchner说。“因此，例如，对于语音识别，您对着麦克风讲话，然后将其发送到云端。云具有巨大的计算能力，然后您可以运行这些大型模型来识别语音。对于我们来说，由于它是实时通信，所以我需要处理每个帧。假设是10或20毫秒帧。我现在需要在这段时间内进行处理，以便我可以立即将其发送给您。我无法将其发送到云端，等待一些噪声抑制，然后再发送回去。”

对于语音识别，利用云可能是有意义的。对于实时噪声抑制，云不是个好起点。一旦有了机器学习模型，就必须缩小它以适合客户。您需要能够在典型的电话或计算机上运行它。仅针对拥有高端机器的人的机器学习模型是没有用的。

边缘计算

机器学习模型应该存在于边缘而不是云中的另一个原因是：Microsoft希望限制服务器的使用。有时，开始时甚至没有服务器。对于Microsoft Teams中的一对一呼叫，呼叫设置通过服务器进行，但是实际的音频和视频信号包直接在两个参与者之间发送。对于组呼或预定的会议，图片中有一个服务器，但是Microsoft最小化了该服务器上的负载。为每个呼叫执行大量服务器处理会增加成本，并且每增加一个网络跃点都会增加延迟。从成本和等待时间的角度来看，边缘处理的效率更高。

“您要确保将尽可能多的计算推送到用户的端点，因为这实际上并没有涉及任何成本。您已经拥有笔记本电脑，PC或手机，因此现在进行一些其他处理。只要您不使CPU过载，那应该没问题。” Aichner说。

我指出这是有成本的，尤其是在未插入的设备上：电池寿命。他说：“是的，电池寿命，我们显然也在关注这一点。” “我们不希望您现在的电池寿命大大降低，只是因为我们增加了一些噪音抑制功能。这绝对是我们发货时的另一个要求。我们需要确保我们不会在这一点上被’打回‘。”

下载大小和面向未来

团队不仅要考虑“被打回“，而且还要考虑未来的发展。因为我们在谈论机器学习模型，所以工作永无止境。

Aichner说：“我们正在努力构建一种将来具有灵活性的产品，因为在发布第一个功能后我们将不会停止投资于噪声抑制。” “我们希望使其越来越好。也许对于某些噪声测试，我们的表现不尽如人意。我们绝对希望有能力改善这一点。每当我们认为我们有更好的产品时，Teams客户都将能够下载新模型并提高质量。”

该模型本身将以几兆字节的速度运行，但不会影响客户端本身的大小。他说：“这也是我们的另一个要求。当用户在手机，台式机或笔记本电脑上下载应用程序时，您希望最小化下载大小。您想帮助人们尽快发展。”

Aichner说，“仅针对某些型号”在下载中增加兆字节是不会实现的。安装Microsoft Teams后，稍后在后台将下载该模型。“这也使我们在将来变得更加灵活，我们可以做更多的事情，拥有不同的模型。”

机器学习专业知识

所有以上这些都需要最后一个组成部分：人才。

“您还需要拥有机器学习的专业知识，才能知道您想对这些数据进行什么操作，” Aichner说。“这就是为什么我们在这个智能通信小组中创建了这个机器学习团队的原因。您需要专家知道他们应该如何处理这些数据。什么是正确的模型？深度学习具有非常广泛的意义。您可以创建许多不同类型的模型。我们在世界各地有多个Microsoft研究中心，并且那里也有很多音频专家。我们正在与他们紧密合作，因为他们在深度学习领域拥有很多专业知识。”

数据是开源的，可以进行改进。需要大量计算，但是任何公司都可以简单地利用公共云，包括领先的Amazon Web Services，Microsoft Azure和Google Cloud。因此，如果另一家拥有视频聊天工具的公司，同时拥有合适的机器学习者，他们能否实现这一目标？

Aichner说：“答案可能是肯定的，类似于几家公司正在获得语音识别。” “他们有一个语音识别器，其中还涉及很多数据。建立模型还需要大量的专业知识。因此，大公司正在这样做。”

Aichner认为，由于规模庞大，微软仍然具有巨大优势。他说：“我认为价值就是数据。” “我们未来想要做的就像您所说的，有一个计划，Microsoft员工可以给我们提供足够多的真实团队电话，以便我们可以更好地分析客户的实际情况，他们所遇到的问题面对，并对其进行更多定制。”

AICUG翻译原创，如需转载请注明出处或联系（微信号：834436689）

-End-

更多AI技术干货请查阅AICUG知乎专栏：

https://www.zhihu.com/org/aicugren-gong-zhi-neng-she-qu

【加入社区】

AICUG技术交流群开始招募啦，欢迎对AI感兴趣的同学，请加管理员微信834436689，申请信息提交：姓名-公司-职位；通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）