使用键盘麦克风在(ipad/移动设备)上听写后保存用于填充文本框的语音
Posted
技术标签:
【中文标题】使用键盘麦克风在(ipad/移动设备)上听写后保存用于填充文本框的语音【英文标题】:Save speach used to fill a textbox after dictating on (ipad/mobile device) with keyboard-microphone 【发布时间】:2021-12-02 15:58:54 【问题描述】:通过在浏览器中单击 ipad 或移动设备上的文本框,键盘会出现在屏幕上。这里可以选择麦克风直接用我们的声音将文本口述到输入框中,而无需直接写。
因为语音转换并不总是完美的,我们希望将语音本身的音频保存在我们的服务器上,以便在文本不够清晰时使用。
是否可以从 ipad/mobile 检索并保存在我们的服务器上,用于在 out textbox 中写入文本的语音音频?
我知道我可以编写 javascript 代码来将语音转换为文本并直接录制语音,但我们想知道是否可以获取用于设备使用的语音到文本转换的音频(作为文件)填充文本框。
换句话说,当我使用设备键盘的麦克风进行口授时,设备是否允许进行覆盖的页面以文件的形式访问音频?
【问题讨论】:
【参考方案1】:因为您也标记了这个 android,而不是在那个操作系统上。键盘是它自己的应用程序,它自己处理语音输入。无法访问其他应用的文件。
如果您想在本机应用程序中执行此操作,请设置您自己的麦克风按钮并使用语音转文本服务,该服务将返回一系列可能的输入和概率。在浏览器中,您很不走运,因为无法访问该服务。
出于几个原因,所有这些无论如何都是一个有争议的问题
很少有人使用语音输入。我最后的数字数据是旧的,但当我在一家键盘公司工作时,它已经不受欢迎了,我们可以选择移除键。 上传这些文件将是一个巨大的隐私问题。看看大约一年前的一场风暴,当时发现谷歌/亚马逊出于同样的原因做了同样的事情。在他们的情况下,这是一个更大的交易,因为它是后台处理,但用户可能仍然不满意。 除非您在研究人员身上花费数百万美元,否则您不会比现有解决方案做得更好。这种软件不容易编写,即使是拥有庞大团队的 Google 和 Nuance(为 Siri 提供支持的 Dragon 的所有者,或者至少做到了)也不是一个完全解决的问题。为什么你认为你会做得更好?除非您打算手动收听它们。在这种情况下,下一点就更大了。 好的,所以您上传了文件并找到了更好的解决方案 - 您将如何处理它?不知何故更改用户在 20 分钟前输入的文本?您将如何做到这一点并拥有一个有意义的 UX 流程?【讨论】:
以上是关于使用键盘麦克风在(ipad/移动设备)上听写后保存用于填充文本框的语音的主要内容,如果未能解决你的问题,请参考以下文章
在 iPad mini 中使用语音听写时 100% iPhone 应用程序崩溃