12月5日-6日,由智东西与智猩猩联合主办的2024中国生成式AI大会(上海站)在上海圆满举行。在大会首日的主会场上,趣丸科技副总裁贾朔以《探索音乐创作的技术平权——AI音乐的创新实践》为题发表了演讲。
贾朔认为,2024年是AIGC音乐爆发元年,人工智能的创新发展大大降低了音乐创作门槛,音乐创作赛道终于迎来了“创作平权”时刻,普通用户也能用低门槛的方式体验音乐创作的乐趣。
音乐生成之所以是被LLM浪潮覆盖的最后一种模态,成为漏网之鱼,源自于音乐的特殊性——时间序列性、多层次结构、情感一致性、评估主观模糊性。
目前Diffusion in Transformer(DiT)成为大多数闭源的主流选择,而国产AI音乐的歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型。
贾朔分享了人与音乐的AI交互形式的变化,从文生音乐,到三键成曲,再到哼唱成曲。今年7月份,天谱乐全球首发多模态音乐生成模型,支持视频成曲和图片成曲功能,一键根据用户视频或图片生成一首完整的音乐。
此外,贾朔在现场首次预告天谱乐的新功能——MidiRender,功能类比于一个精准、可控音乐版的Control Net,专业的创作用户可以输入自己的音乐构想,让天谱乐AI根据这个原创音乐片段填充歌词、完成编曲。
以下为贾朔的演讲实录:
一、2024年是AI音乐爆发元年,迎来“创作平权”时刻
2024年是一个重要的年份,音乐创作赛道终于迎来“创作平权”时刻。
文字、图片、视频这些模态的创作平权问题早在移动互联网时代已经被解决。一个普通人想要创作这些,都可以轻松实现。因为移动互联网时代的一个主线任务,就是不断降低创作门槛,实现全民UGC内容创作。
但是,音乐属于移动互联网时代的一个漏网之鱼。普通人想要用简单的操作在手机上完成低门槛音乐创作,是比较难的。到了2024年,AIGC到来的时代,这个任务终于要被完成了。
这里整理了各个模态成熟的时间线。可以会看到这一波生成式人工智能的浪潮。有几个标志性的事件,比如说文本生成,代表事件像ChatGPT率先发布3.5版本,把文本生成,特别是基于transformer的交互对话把热度给点燃了。紧随其后是文生图也在2023年前后成熟,普通人输入一段简单的文字咒语,就可以输出非常专业的图片效果,甚至是近似照片的图像。文生视频是在2023年底到2024年年初,Sora的出现让文生视频率先进入AIGC成熟的临界点。反倒是音乐在这几个主流模态里面,它是最后一个成熟的。
二、天然特殊性让音乐生成需要克服四大难题
为什么音乐总是最后一个?它有哪些特殊性?我们天谱乐团队深耕这个行业很长时间,对音乐生成有一些理解,主要反映在四个方面。
首先,它需要很强的“时间序列性”。一首音乐三分钟,它的时间顺序要遵循音乐上的规律跟结构。如果结构错了,人可以很容易识别出来它不自然,它不是人类生成的。
其次,是“多层次结构”。大家如果平时听音乐比较多的话,会留意到一首音乐的编曲里面,会有非常多的空间编排。比如说人声可能是靠前或靠后,同时你的左侧可能有一个架子鼓,右侧有一个大提琴或小提琴,这些会带来非常多的空间结构信息,在生成领域它同样需要解决和克服。
第三点,情感一致性。众所周知,音乐是用来统一情绪的一种工具。同时,如果一个音乐作品80%的部分非常符合逻辑,但是唯独有一两个音稍微有点瑕疵,达不到人类对这个音乐的效果预期。人类就会瞬间识别出来。如果同样的事情发生在文生图,一些小瑕疵可能不会产生特别严重的问题。
第四点,评价主观模糊性。大家做大模型、做AIGC生成,经常做一些跑分题库去量化、评价一个模型效果好坏?但是在音乐领域,它的评价非常主观。你问一个人这个音乐好不好,他会回答喜欢或者不喜欢。但是,对一个音乐的喜好评价,并没有太多建设性的反馈价值。同时,这个评价有模糊性、主观性,更多取决于个人的审美偏好,而非音乐质量高低。
三、国产AI音乐歌声自然度比肩美国头部模型
在当下这个时间节点,做一个音乐生成大模型或产品的选择空间并不大。音乐生成不像其它模态有成熟的开源方案。事实上,无论在国内还是国外,基本都是闭源项目主导,要么从预训练环节开始自己训练,要么直接套壳。
我们看到,在技术路线选择上,今年有一个比较明显的趋势,Diffusion in Transformer(DiT)成为大多数闭源的主流选择。包括Suno CEO在一个公开分享中也提到,Transformer更适合处理时序结构上的问题,而Diffusion更适合处理一些高维空间问题。
当然,尽管大家的技术路线选择一致,但是具体的架构设计还是存在非常大的差异。例如造车必须有四个轮子,但是轮子应该怎么设计大家各有不同。
今年除了搞技术的对音乐感兴趣,音乐人也很关心。我们跟一些音乐人沟通,现在音乐生成效果这么好,什么问题导致他们无法使用这些AI工具。他们回答两个点,第一点,人声的自然度问题。举个例子,在3D建模有一个很有名的效应,叫做恐怖谷效应。即一个东西已经有九分像,就差10%,但是人类可以很快识别出来,并且对它产生厌恶和反抗情绪。
为了攻克这个问题,天谱乐团队从模型结构上调整了几十版,实验上百次,最后我们认为拿出了一个比较有竞争力的结果。
我们拿天谱乐最新的版本跟音乐人交流,音乐人给了很高的评价。他们说AI音乐这个赛道仿佛到了围棋遇到AlphaGo的时刻。同时,我们也找了音乐高校学生,他们具备专业的音乐训练,可以比普通人给出更专业的评价。我们做了一个盲测,用相同的Prompt测试了50条输出音乐,让音乐高校学生盲测给天谱乐和国内外产品打分,最终结果是天谱乐AI最新2.2版本的中文人声唱词已经达到一个新的天花板水平,歌声自然度更是突破人耳识别阈值,效果比肩美国头部模型。
▲天谱乐AI生成歌曲《堵》
四、首创图频生曲功能革新AI音乐交互形式
文生音乐是最适合的交互方式吗?很多人觉得“摇歌”这个事情就像开盲盒,觉得“音乐效果不错,但是跟我有什么关系呢?
针对这个命题,天谱乐团队做了一系列的探索,我们在2023年推出“三键成曲”模式,用户输入三个音即可扩写形成一首完整歌曲。2024年天谱乐进一步推出“哼唱成曲”,很多人在洗澡的时候会随心哼唱一段,同样可以扩写成歌曲。
当然,这些可能都还不够简单,怎样才能让音乐创作更简单呢?类似移动互联网时期的手机摄像头就是最平权的输入媒介,人人都能拿起手机拍一拍照。我们在想,如果用户旅游中拍了一张照片、一段视频,天谱乐是否可以帮他生成一个完整的作品?
带着这个想法,天谱乐首发了全球首个多模态音乐生成模型。这个模型可以理解画面的内容、情绪,从而自动匹配最合适的歌曲。
▲天谱乐视频生曲
五、AI如何为人类创造更大价值
2024年整个AI音乐赛道的门槛终于被彻底打下来了。图片创作、视频创作、音乐创作确实到了人类历史最简单的一个时代。
前几周我跟一个湖畔大学的老师交流,他提到一个新的问题:天谱乐这个AI音乐工具能帮助人类作曲家作出更好的音乐吗?当时我思考了很久,我们做这个模型目的是什么?只是让更多人可以轻松创作出60分的音乐吗?还是可以创造更大的价值,辅助人类不断突破创意天花板,创作出更好的内容呢?
我们发现市面上普遍的音乐生成大模型,除了人声不好之外,很重要的问题是现在的AI不听话,不按照作曲家、音乐人的意图创作,AI过多地自由发挥。
所以基于这个思考,我们拿出了一个新功能,今天是第一次正式地对外亮相,天谱乐下一个版本会发布的一个叫MidiRender的功能。大概介绍一下这个功能。在文生图领域有一个非常重要的发展节点,就是Control Net的出现,让文生图变得非常可控。AI音乐也需要类似的一个东西。第一步是核心的创意部分,我们还是希望人类作曲家来主导,用乐器、编曲软件都好,先去弹一段基础的动机旋律。第二步,在以前人类作曲家从创作一段动机旋律到完成一首完整的创作,往往要花几周甚至几个月的时间。而现在,天谱乐AI完全有能力来加速完成这个动作。大家听DEMO可以感受到,最终出来的音乐跟最初人类作曲家的动机旋律是完全匹配的。这也是我们认为AI大模型作为工具,可以为艺术家服务的一个事情,而不是去抢夺创作主导权。
▲输入音频
▲生成结果
翻开人类历史,人类可能真正擅长的有两件事情。第一件事情是犯重复的错误,比如周期性的谜之自信,觉得可以创造出比自己更聪明的东西。第二件事情是人类非常擅长制造工具。人类每一次制造一个新的工具,都在不断拓展自己能力的外延,所以今天人类才彻底成为这个星球的霸主。所以我认为技术最终还是要服务于人,技术的出现不是为了取代人类工作,而是帮助人类创造更美丽的东西。
以上是贾朔演讲内容的完整整理。