在语音识别中使用 Kinect Skeleton ID

Posted 2023-02-22

技术标签:

【中文标题】在语音识别中使用 Kinect Skeleton ID【英文标题】：Using Kinect Skeleton ID in Speech Recognition 【发布时间】：2015-04-05 16:59:35 【问题描述】：

我正在围绕 Kinect 做一个项目。基本上，我有一个供许多用户使用的音频文件数据库。

在这些用户中，只有一个会站在 Kinect 前面（在其范围内）。 Kinect 将跟踪骨架，给他一个 ID，而且我已经设法只显示跟踪的骨架的头部。同时，我应用了一个语音识别代码，所以用户会说出关键词，并根据这些关键词发生动作。 PS：只有当用户的声音与数据库中的一个音频文件“匹配”时，才会发生这些操作。

好的，到目前为止一切顺利。以上所有工作都相对正常。这是问题所在：让我们想象一个用户站在 Kinect 前面，一个“已验证用户”，同时另一个用户走进来，也经过验证，说出其中一个关键词。现在，当第二个用户走进来时，他将获得一个骨架轨道 ID。

有没有一种方法可以将第一个骨架的轨道 ID 传递给语音识别代码，以便当关键字仅由第一个用户说出时（基于他的轨道 ID）发生动作？

谢谢。

【问题讨论】：

【参考方案1】：

您可以使用音源角度来确定声音的来源。如果你有这些信息和用户的骨架位置，你就可以知道哪个用户在说话。请注意，这将为您提供最响亮的音频的方向...假设您的用户没有同时说话，这很好。

https://msdn.microsoft.com/en-us/library/microsoft.kinect.kinectaudiosource.soundsourceangle.aspx

这当然是假设您使用的是 Kinect 1 (SDK 1.8)...如果您使用的是 Kinect 2，您可以直接询问正在说话的用户的身体跟踪 ID。只需向 AudioBeam 询问一个帧，向该帧询问一个子帧，然后向该子帧询问相关性，然后您就会得到以下信息：

https://msdn.microsoft.com/en-us/library/microsoft.kinect.kinect.iaudiobodycorrelation.get_bodytrackingid.aspx https://msdn.microsoft.com/en-us/library/windowspreview.kinect.audiobodycorrelation.bodytrackingid.aspx

【讨论】：

以上是关于在语音识别中使用 Kinect Skeleton ID的主要内容，如果未能解决你的问题，请参考以下文章