Azure语音合成再添新声音，“风格迁移”技术为不同音色实现多情感演绎

Posted 2022-08-12 CSDN云计算

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Azure语音合成再添新声音，“风格迁移”技术为不同音色实现多情感演绎相关的知识，希望对你有一定的参考价值。

微软Azure Neural TTS（神经网络版文本转语音）新增五种声音模型，让我们再次体会到了“风格迁移”技术对AI语音模型多情感多风格的强大支持。

此次更新的五个美式英语声音模型，包括青春甜美的Jane、低沉温和的Nancy、随性且精力充沛的Davis、响亮激昂的Jason和沙哑粗犷的Tony。在“风格迁移”技术的支持下，不仅拥有开心(cheerful)、伤心(sad)、生气(angry)、兴奋(excited)、期待(hopeful)、友好(friendly)、不友好(unfriendly)和恐惧(terrified)等丰富的情感表现，还拥有首次运用的呼喊(shouting)和耳语(whispering)两种表达方式。至此，用户拥有可选择的美式英语声音模型已达到20个，丰富的情感和风格让应用场景更加多元。

现在就来听听这5个新声音吧

声音	性别	示例
Jane	女性	Audio
Davis	男性	Audio
Jason	男性	Audio
Nancy	女性	Audio
Tony	男性	Audio

点击声音模型，感受AI声音的两种新表达方式

声音风格或情感	示例（男性）	示例（女性）
呼喊(shouting)	Audio	Audio
耳语(whispering)	Audio	Audio

点击声音模型示例，感受合成语音蕴含的情感

情感或表达方式	示例（男性）	示例（女性）
开心(cheerful)	Audio	Audio
期待(hopeful)	Audio	Audio
友好(friendly)	Audio	Audio
不友好(unfriendly)	Audio	Audio
恐惧(terrified)	Audio	Audio

“风格迁移”技术的原理是把一个声音模型的韵律和语调复制到另一个声音模型上，从而让后者在本身音色不变的前提下，也可以拥有前者说话的韵律和语调。过去，声音风格的搭建主要依靠录音演员录制各种风格的声音数据，再使用录音数据来生成多风格的智能语音模型，但是一名录音演员难以演绎所有风格的声音。风格迁移技术创新地解决了这一问题，可以高效地赋予多AI声音情感和风格。

声音风格和声音情感模型的持续更新，让Azure Neural TTS的合成语音在多种业务场景中得到了广泛应用，让用户感受到了更逼真的语音体验。例如，游戏平台可以快速为角色生成多种情感声音，为游戏增添更多符合情节的个性化表达，让虚拟游戏世界栩栩如生。“State of Decay”（腐烂国度）的创作者——微软亡灵工作室 (Undead Labs) 的使命是为游戏开创崭新的方向，他们在游戏开发中就应用了Azure Neural TTS。推出过包括“Psychonauts 2”（精神病患者2）在内的多款游戏的Double Fine工作室，也正在利用Azure Neural TTS制作未来游戏项目的原型。音频解决方案提供商Remixd在其平台中集成了Azure Neural TTS的声音模型Jenny和Davis，让其客户在创建音频内容时有了更多选择。

关于Azure Neural TTS

微软Azure Neural TTS是Azure认知服务中强大的语音合成功能，能够让开发人员使用AI技术将文本转换为逼真的声音。截止目前，微软Azure Neural TTS支持全球140个国家和地区的语言，提供400个声音模型，可加速声音的自动化生产，帮助各种企业更快地训练出满足业务场景的声音，打造出专属的声音品牌——无论是呼叫中心、语音助手、有声书制作、聊天机器人、语音导购，还是影视剧/动漫配音、自媒体短视频、情感电台、教育培训等场景。

持续的技术迭代和版本更新，让Azure Neural TTS 可以为更多企业、更多场景提供逼真、自然、接地气的声音体验。同时，微软的所有技术进步都接受微软负责任的 AI流程的指导，遵循公平、包容、可靠性与安全性、透明、隐私与保障、负责的原则，并通过微软内部的负责任人工智能办公室 (ORA)，人工智能、伦理与工程研究委员会 (Aether)，以及负责任AI战略管理团队 (RAISE) 来监督、实施这些道德标准。

现在就来Azure认知服务官网体验极具特色的文本转语音服务，或定制你的专属声音吧。

以上是关于Azure语音合成再添新声音，“风格迁移”技术为不同音色实现多情感演绎的主要内容，如果未能解决你的问题，请参考以下文章

科研一对一 | 苏黎世联邦理工学院 | 机器学习增强现实AR/VR声学：语音风格迁移

PaddleSeg图像分割库再添新武器，新增压缩部署方案FLOPs降低51%

Apache Dubbo 多语言体系再添新员：首个 Rust 语言版本正式发布

压力测试后再加新压力债务高负担者再添新愁？

增材制造商绿色贸易协会再添新成员