Azure Neural TTS能让AI语音自然逼真到什么程度?

Posted AI科技大本营

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Azure Neural TTS能让AI语音自然逼真到什么程度?相关的知识,希望对你有一定的参考价值。

摘要:微软Azure Neural TTS让AI语音像真人一样富有感情,自然逼真。

Neural TTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时,越来越多的用户希望它也可以支持到更多日常的对话场景,拥有更加富有情感和自然逼真的拟人效果。如今,这一愿望已经得到实现——通过对Neural TTS多个方面的升级,它所合成的声音已经能够良好适应日常对话场景。

不同对话场景,用户期待不同语气的拟人AI语音

TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。

客服机器人:语气要自然、友好且专业

很多企业正在使用支持语音的聊天机器人或IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性,使客户与TOBi之间的人机对话变得轻松自然,让客户更乐于与之交流。

设想这样的情景:在客户对TOBi报出姓名后,当TOBi需要了解客户的地址以便提供进一步服务时,Tobi并不会生硬地接着发问:“请说出您的地址。”而是会这样表达:“嘿,好名字!接下来我还需要了解一下您住在哪里?”此时此刻,客户一定希望AI能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时,还适用于AI语音向客户打招呼,或表达共情态度时。

个人助理:表情符号、重点强调要读懂

随着虚拟助手和虚拟现实技术的兴起,使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然,最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇,这类表情符号,还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外,让AI能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。

同声传译:翻译前后说话风格、语气要一致

语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果AI语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。

Azure Neural TTS进化:多国语言皆可栩栩如生、“以假乱真”

Sara(英语):更能表现自然情感的聊天机器人语音

Sara是一个新近推出的美式英语音色,尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出“太~(拉长语调)好了”这种人类特有的语调。

播放下面的语音,亲耳感受一下效果。

语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wav

语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wav

下面这段录音,来自Sara作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)

 https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wav 

除了预设的几种“情绪”,用户还可以通过SSML让Sara在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。

语音1:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Cheerful.wav

语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wav

语音3:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wav

语音4:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wav

晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音

晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。

晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类“严肃”场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。

借助先进的建模技术,晓辰和晓颜的AI语音能够学习并活用这些人类表达的“缺陷”,并逼真地还原这些“不完美”,使合成语音听起来更加真实亲切。

在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。

 https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4

Nanami(日语):元气满满的东瀛女声

Nanami是拥有动听女性声线的日语语音。“她”有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。

来听一听Nanami元气满满的声音:

语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wav语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wav

语音3:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Cheerful.wav

现在就来感受Azure Neural TTS拟人语音的动人表现力吧!

微软不断倾听全球用户对于Azure Neural TTS在不同情况下语音发音准确性的反馈,以负责任的AI及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。

现在,微软的文本转语音可以支持超过110种语言的270多种AI语音。如果想亲身感受Azure Neural TTS的强大,就来Azure官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。

以上是关于Azure Neural TTS能让AI语音自然逼真到什么程度?的主要内容,如果未能解决你的问题,请参考以下文章

Azure Neural TTS 持续上新,助力企业开拓小语种市场

吾剑未尝不利,国内Azure平替,科大讯飞人工智能免费AI语音合成(TTS)服务Python3.10接入

Azure 认知服务 TTS 自定义语音终结点测试

AI百度接口以及图灵接口的使用

微软TTS5.1语音引擎(中文).msi怎么用?

Python + edge-tts:一行代码,让你的文本轻松变成语音!