Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis论文阅读

Posted So istes immer

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis论文阅读相关的知识,希望对你有一定的参考价值。

论文原文下载

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

(从语者识别到多人语音合成(根据文字转语音)的迁移学习)

                                                 摘要

    我们描述了一个TTS(text-to-speech)的神经网络系统,该系统能在不同说话者的声音中生成语音音频,包括在训练期间那些没听过的声音。我们的系统包括三个独立训练的部分:
(1)a speaker encoder network,在一个语者识别任务上训练,使用的数据集是独立的、嘈杂的,没有来自数千说话者的转录,仅根据几秒目标speeker的语音样本就能生成固定维度的embedding vector。
  (2) 基于 Tacotron 2 的 sequence-to-sequence synthesis network,它从文本生成梅尔谱图,以说话人嵌入为条件;
(3) an auto-regressive WaveNet-based vocoder network,可将梅尔频谱图转换为时域波形样本。我们证明了所提出的模型能够将经过区分训练的说话人编码器学习到的说话人可变性知识转移到多说话人 TTS 任务中,并且能够从训练期间看不见的说话人合成自然语音。我们量化了在大量不同语者的语言集上训练speaker encoder来获得最佳泛化性能的重要性。
最后,我们展示了随机采样的说话人嵌入可用于在与训练中使用的说话人不同的新说话人的声音中合成语音,表明该模型已经学习了高质量的说话人表示。

以上是关于Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis论文阅读的主要内容,如果未能解决你的问题,请参考以下文章

transfer learning

Transfer learning & The art of using Pre-trained Models in Deep Learning

Deep learning III - II Machine Learning Strategy 2 - Transfer Learning 转换学习

Keras vs. PyTorch in Transfer Learning

迁移学习( Transfer Learning )

迁移学习(Transfer Learning)