Google：我能把文本变成音乐，但这个 AI 模型不能对外发布！

Posted 2023-01-31 AI科技大本营

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了Google：我能把文本变成音乐，但这个 AI 模型不能对外发布！相关的知识，希望对你有一定的参考价值。

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

人工智能的春天已至，未来属于 AIGC。继业界出现 ChatGPT、Stable Diffusion 2.0、VALL-E 等聊天、图像、文本生成声音等模型之后，Google 最新带来了一种新的人工智能系统，让 AI 发力音乐圈，该系统可以在给定文本描述的情况下自动生成任何类型的音乐，为此，Google 还取了一个言简意赅的名字——MusicLM。

不过，值得注意的是，因为担心该系统存在一些潜在风险，Google 当前虽然已经研发了该系统，但暂时还没有对外公开发布它的计划。

MusicLM 的神奇之处

只闻其声不见其人，也为 MusicLM 带来了一些神秘感。不过，近日，Google 发布了一篇《MusicLM: Generating Music From Text》学术论文，揭开了 MusicLM 的面纱。

据论文介绍，MusicLM 是一个从文本描述中生成高保真音乐的模型，它将有条件的音乐生成过程描述为一个层次化的序列到序列的建模任务，其生成的音乐频率为 24kHz，在几分钟内保持一致。

层次化的序列到序列的建模任务

在业界，MusicLM 并不是第一个 AI 音乐生成器，也正如外媒 TechCrunch 指出的那样，此前 Google 推出的 AudioML 和 OpenAI 的 Jukebox 等项目都已经实现了音乐生成功能，那么，MusicLM 到底特别在哪里？

其实，MusicLM 的与众不同主要体现在以下几点：

一、MusicLM 的训练数据无可比拟

上述提到的几种模型往往由于技术限制和有限的训练数据，无法制作出作曲特别复杂或高保真度的歌曲。

相比之下，MusicLM 是在 280，000 小时的音乐数据集上进行了训练而成，由此可以帮助模型本身创造出令人称奇的多样性、深度的音乐。

二、MusicLM 可以直接根据文本提示生成长达几分钟的音乐片段

只要提供一段描述，MusicLM 模型可以文本自动生成符合场景的音乐，譬如提供的描述如下：

雷鬼舞曲和电子舞曲的融合，具有太空般的、另一个世界的声音。诱发在太空中迷失的体验，音乐将被设计为唤起一种奇迹和敬畏感，同时又是可舞蹈的。

自动生成的音乐如下：

三、MusicLM 模型还可以基于已有的旋律转换为其他乐器，甚至模拟人声

除了以上，Google 研究人员表明，MusicLM 还可以建立在现有的旋律之上，即无论是哼唱、演唱、吹口哨还是在乐器上，MusicLM 都可以继续创建音乐。

与此同时，根据官方提供的示例显示，MusicLM 模型能够按顺序编写多个描述（例如“冥想时间”，“醒来时间”，“跑步时间”，“100% 给予时间”），并创建一种以“故事”或长达几分钟的叙事为背景的旋律，这种非常适合电影配乐。

譬如，想要一个以下叙事内容的背景音乐：

电子游戏中播放的歌曲（0：00-0：15）

在河边播放的冥想歌曲（0：15-0：30）

火（0：30-0：45）

烟花（0：45-0：60）

MusicLM 在理解了文本内容之后，生成的旋律如下所示：

MusicLM 也能通过图片和文本描述的组合进行指导，或生成由特定类型的乐器“播放”的音频。甚至可以设置 AI “音乐家”的经验水平，系统可以创作受地点、时代或要求启发的音乐（例如锻炼的励志音乐）等等。

基于以上，很多网友在了解论文以及通过示例观摩之后，给予了高度评价：

哇，这对我来说比 ChatGPT 还有吸引力。

我会说，谷歌几乎解决了音乐生成问题。

Google 研究员表示，「实验表明，MusicLM 在音频质量和对文本描述的遵守方面都优于以前的系统。」

MusicLM 的不足

不容忽视的是，MusicLM 还有一个强大之处就是可以模拟人声。

不过，MusicLM 当前还并不是一个成熟的模型，就以模拟人声为例，虽然它可以正确处理声音的音调，但是质感还存在一个问题。此外，很多自动生成的“歌词”有些含糊不清，也许有点像某人在哼歌，也许好像在听英文歌，但实际上或许并非如此，听众甚至会一度怀疑自己的耳朵听到的究竟是什么。

Google 的担忧

整体而言，这些由 AI 生成的歌曲听起来像是人类艺术家可能创作出来的，普通听众往往难以分辨到底是 AI 创作还是人类创作。

或也正是基于这一方面的考虑，Google 在开发这款模型之际也犹豫了，在论文中，其表示，“我们目前没有发布该模型的计划”。

具体原因和此前面对 ChatGPT 强大的竞争压力时，Google 谨慎的态度一样，其担心像 MusicLM 这样的模型将会带来许多道德挑战，包括将训练数据中的受版权保护的材料合并到生成的歌曲中。

在一项实验中，Google 研究人员发现系统生成的音乐中约有 1% 是直接从其训练的歌曲中复制的，这个阈值显然足以阻止他们以当前状态发布 MusicLM 这款模型。

“我们承认与用例相关的创意内容可能有会被盗用的风险，”该论文的共同作者写道，“我们强烈强调，未来需要开展更多工作，以应对与音乐创作相关的这些风险。

不过，Google 也表示，它正在公开发布一个包含 5500 个音乐文本组成的数据集 MusicCaps，其中有人类专家顾问提供丰富的文本描述，有助于训练和评估其他音乐 AI。也许在不久的将来，待 Google 摸出合适的道路，我们可以真正地一见 MusicLM 的风采。

关于 MusicLM 的更多详情可见：https://google-research.github.io/seanet/musiclm/examples/

参考链接：

https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

以上是关于Google：我能把文本变成音乐，但这个 AI 模型不能对外发布！的主要内容，如果未能解决你的问题，请参考以下文章