初音唱的声音是否电音

Posted 2023-03-25

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了初音唱的声音是否电音相关的知识，希望对你有一定的参考价值。

初音唱的声音是不是电音

结论开始说吧：不是

初音未来（初音ミク/Hatsune Miku），是2007年8月31日由CRYPTON FUTURE MEDIA以Yamaha的VOCALOID系列语音合成程序为基础开发的音源库，音源数据资料采样于日本声优藤田咲。--取自百度百科

EX：（转包括初音未来的vocaloid原理）

背景
MTG(Music Technology Group)是西班牙庞贝法布拉大学下的研究组，于1994年由Xavier Serra成立并担任主任。90年代末该小组和Yamaha合作开发Vocaloid。在Y社投资下进行一系列有关歌声频谱建模的研究并发表若干篇论文。两个核心人物：Xavier Serra博士和Jordi Bonada博士。

2. 框架
MTG把音频的表示分为三个层面：Low Level-声音底层参数的层面, Mid Level-语音学的层面, High Level-乐谱、歌词等更接近演奏者（说话人）的层面。大致上Vocaloid就是这么一个High->Mid->Low一层层下来转换合成的应用。
Vocaloid的引擎基于拼接合成(Concatenative Synthesis)，即说话人的采样（经过处理）成为音源库的成分。拼接合成发源于上世纪80年代，优点是还原性好，合成质量高；缺点是数据库往往比较庞大。

3. Low Level建模
Xavier Serra在89年提出SMS(Spectral Modelling Synthesis)技术，在Quatieri & McAulay提出的正弦模型(Sinusoidal Model)基础上增加了随机(Stochastic)成分。在语音分析中该技术把语音拆分成若干不同频率和幅度的正弦波和气音。其中气音相当于通过声道滤波器的噪音。合成时给定控制点，生成若干正弦波和气音并叠加。顺带一提，SMS有很多其它名字，比如HNM(Hamonic and Noise Model)，HpN(Harmonic plus Noise)，这些是限定正弦成分即谐波。另外，因为在分析阶段采用的傅立叶变换的性质，实际合成中往往使用余弦而不是正弦。
Vocaloid的音源库制作阶段使用SMS对语音进行底层建模，而合成使用VPM(Voice Pulse Model)。VPM的作用类似SMS的合成阶段，但它直接在频域生成语音的短时频谱。WBVPM(Wide-Band Voice Pulse Model)技术使用STFT将这些短时频谱叠加生成最终的语音，并可在同一频谱中表示出语音的正弦成分和随机成分。VPM相对SMS合成的优点是速度更快，且能够对语音的声门脉冲建模，直接控制相位。（吐槽：不过89年恰好Quatieri & McAulay发表了一篇关于正弦合成中相位还原的论文……）
随便找个Vocaloid音源，让他/她在低音唱个“a”，那个滋拉滋拉的Vocal Fry效果就是VPM做出来的。

4. Mid Level建模
现在我们有了SMS和VPM，如果我们知道在每一时刻语音各个谐波的频率和幅度，还有气音的频谱形状就能很好地合成出语音。但这些参数哪来的呢？这些参数是由EpR(Excitation plus Resonance)语音模型产生的——EpR能够生成谐波和气音的频谱包络以及相位。字面上就能看出，它把语音的频谱包络（注意是频谱包络不是频谱）视作一条激励(Excitation)曲线和一条共振(Resonance)曲线的和。其中共振曲线又是由好几个单独的共振峰曲线叠加起来的。
这些共振峰的计算公式由Dennis Klatt在1979年的一篇关于共振峰合成器的论文中提出。2001年Jordi Bonada等人将它变成对称的并增加了几个参数。现在每个共振峰的频谱形状由三个参数决定——幅度、中心频率、和带宽。这其实就是Vocaloid1中的RES参数。
Vocaloid的音源库即包括了大量的EpR参数，通过在合成中修改这些参数即能实现时间缩放、音高变换、发音过渡、和音色修改。

5. High Level建模
用户输入的是谱子，这比EpR参数还高了一个层面。于是Vocaloid需要一个参数生成器之类的能够把谱子转成EpR参数。这个生成器就叫作Sonic Space（我找不到中文翻译）。它是一个包含了High Level和Mid Level样本的数据库，能通过某种算法在High Level和Mid Level间进行匹配。但是论文里很少提及相关的算法，我想这可能也是Y社比较保密的技术吧。
（楼主YY）倒是有很多现成的模型可以代替Sonic Space，包括很多机器学习算法。
Jordi Bonada 2008年的论文里展望到，(Vocaloid)未来可能会使用SVM(支持向量机), ANN(人工神经网络), GMM(高斯混合模型), HMM(隐马尔科夫模型)等模型进行高阶建模。
Jordi还说，他们认为HMM模型可以直接架起从Low Level到High Level的桥梁。（可惜这提早被HTS实现了，现在被CeVIO使用）

6. 跑题-简单讲讲其他几种合成软件的原理吧 & 喜闻乐见的Vocaloid v.s. CeVIO
CeVIO只是个图形前端而已，它背后使用的引擎是名古屋工业大学开发的HTS Engine (HMM-based Speech Synthesis System)。大致是把语音的MFCC扔进HMM里，然后重新生成MFCC扔进Source-Filter模型里合成。不过说实话我没研究过HMM-based的技术。作为一种机器学习算法，HMM直接从Low Level的真人羞耻play(咦？)中学习真人的发音习惯，给定了需要合成的High Level信息再把Low Level的东西算出来。所以它可以直接跳过Mid Level，合成的语音会有更好的韵律、节奏和真人发声习惯。
相比之下Vocaloid好似另一个极端——把一切能建模的建模了，通过精确的参数求得高质量的语音。
Vocaloid对Low Level的建模真的非常好，几乎是无听觉损失地还原了，但CeVIO就做不到这点。HTS还没能完善到能处理好每个细节的地步——最明显的是清辅音的损失。但是High Level上CeVIO显然更胜一筹。
我觉得应该结合市场定位比较。Vocaloid面向的用户比较专业，能够手工指定这些高阶参数也是意料之中的。所以至少在未来几年内我觉得Vocaloid（当然是专业调教者的作品）的合成质量会比CeVIO好。
另：看上去Vocaloid4很可能会采用这些高阶建模技术，MTG好几年前就开始进行HMM的研究了。

关于UTAU。UTAU本身也是个前端，而且我本人略严重认为这个VB6写的前端略恶心……这里取自带的resampler为例。我没反向过这货，这只是一些略靠谱的猜测：通过某种OLA的变体先对语音进行时长改变，然后通过重采样加速/减速，然后通过一个共振峰滤波器还原原来的频谱包络。这是个很粗糙的方法。。加上UTAU本身的设计（比如强制把拼接限定在时域）不合理，UTAU的合成质量就比较惨了。即将发布的RUCE(Rocaloid UTAU Compatible Engine)就打算填这个resampler的巨坑。。。让我们拭目以待。。

PS:上面的可能有点难懂。非常简单地说，将声优藤田咲原录的声音加工并以技术保持其不会因升降调而失真/由此开发出软件VOCALOID系列初音未来。虽然被称为电子歌姬，但初音未来的谱声与MIX方面上的电音有概念上的区别。

参考技术A 一定程度上算是电音。。毕竟声音是电子合成的。。不过可以调教的很自然
初音介绍可以看看未来魔书

初音未来的声优

参考技术A 初音未来的声优
百度百科里有详细解释 baike.baidu/view/1191949，我简单给LZ你介绍一下:初音未来，本来是一款音乐软体，很多人用它来制作自己喜欢的音乐，后来很多音乐很受欢迎，比如说《甩葱歌》，更是变成了一种笑料传播。于是初音就越来越火了......发展到现在，有她的游戏，演唱会，等等...........至于声优，她用的藤田咲提供的原声，唱歌的声音是原声合成的，有点像机器人的声音，所以，藤田咲是她的半个声优，因为不是她本人唱的，是用她的声音合成出来的游戏是PSP平台上的，属于节奏游戏，有点像QQ炫舞之类的。现有两款：初音未来：歌姬计划初音未来：歌姬计划2nd
初音未来配音是谁
声源来自藤田咲，不是配音，只是把日语的平假名片假名录下来，声音还是要编辑的。

具体百科有解释。
初音未来幕后配音是谁唱的
声源是藤田咲。初音没有所谓的幕后配音，她实际上只是个软体程式，藤田提供声音样本，SEGA公司的设计人员制作歌曲，输入速度、情感、频率等资料。然后结合藤田的声音，由初音软体整合出来，就成了初音歌曲！

初音未来是谁配音？
由声优藤田咲提供原声，先进行录音。录音时是配合当时播放的音乐唱出一些无特别意义的片假名，软体的购买者制作歌曲时再使用软体。

软体使用了Yamaha的VOCALOID 2语音合成引擎，把人类的声音录音并合成为酷似真正的歌声，是日本3D和智慧的最高水平。只需输入音调、歌词则可发出声音，亦可以调整震音、音速等的“感情引数”，最多能够16人合唱，亦支援即时演奏、对应ReWire。制作完成后会以WAV格式输出，但软体本身只可做出歌唱部分，伴奏音声需要使用其他音乐软体合成。
初音未来的配音者是谁？
初音严格意义上是没有配音的，只有声源藤田咲。

由声源提供基础发音，然后通过软体合成之后出来的基础发音。

让初音说话只需要在软体上输入正确的文字（初音设定只是日文），然后初音就会根据基础发音自动合成声音。

让她唱歌也一样，输入歌词，然后根据软体编辑你想要的音乐，最后合成，一首歌就出来了。

假如是汉语的话，就是声源提供拼音的发音，然后让初音说话的时候输入汉字，然后程式自动根据汉字的拼音自动合成单个字的发音，然后和音乐通过软体合成就是一首歌了。

初音和动漫配音是有完全差别的，因为动漫配音是完全依靠人声来完成的，而初音只是用人声做出来基础，以后的问海全部由软体完成，只要软体存在，初音就永远会唱歌，就是再过百年，声源也许会过世，但是初音依然可以唱新歌。

回答完毕，希望楼主采纳，谢谢支援。

PS：采纳方法，在百度知道中我的提问里选出满意答案即可。
初音未来的配音演员是谁啊，最好有图。
初音是一款语音合成软体，是没有配音演员的，软体由声优藤田咲提供原声，经过处理就是初音是声音了
初音未来的声优叫什么
藤田咲（ふじたさき）原来的工作是三线动画声优，所属事务所ARTSVISION。本名藤田咲子（ふじたさきこ）东京都出身，现在正在日本ナレーション演技研究所学习中…… 动画方面主要演出作品有《つよきす Cool×Sweet》的蟹沢きぬ、《心跳回忆Only Love》的弥生水奈，为大众所了解还是07年担任Crypton公司的MIDI软体虚拟歌手初音ミク的人声音讯素材的来源…… 说没有声优的自己去看看百度百科吧，亏你还说得出来……
初音的CV是谁
初音其实是语音合成引擎，所以谈不上CV

非要说的话是声优藤田咲提供的原音
初音未来这个虚拟歌手是谁配的音
自行百度， *** ！因为Miku还是比较NB的一言难尽！总之说是谁配的音不准确！确切的说初音实一个人声模拟软体Vocaloid的一个声音库！原声采集是藤田咲，之后经过软体变声处理。由于P主使用初音创作时，已经独立于藤田咲，几乎不受藤田咲的限制，也无需藤田咲参与！因而和”东方同人“等不同，也不同于传统动漫角色配音范畴！因而在这里说“谁给初音配音“本身就是不准确的！初音的声音和形象都属于她自己！不存在藤田咲给初音配音这一说！

说的比较模糊！详细还请百科！

若有兴趣的话百度贴吧，Voacal同好会，萌葱窝都有相关更详细的介绍！

和初音同类的还有很多！值得一提的是中国首个类似的角色——洛天依！
洛天依声优是谁
山新

以上是关于初音唱的声音是否电音的主要内容，如果未能解决你的问题，请参考以下文章

初音未来的声优

有个女童音唱的to my heart，bi bi bi bi这样歌词的，是啥歌？

为什么Audition cc2017扫描不了电音插件，你需要这个工具

求一首英文歌，一开始是快节奏的鼓点，中间有段很舒缓的音乐是啊噢啥的

是否可以从一个窗口录制声音？

电脑没有声音是啥问题?