智东西(公众号:zhidxcom)
编辑 | GenAICon 2024

2024中国生成式AI大会于4月18-19日在北京举行,在大会首日的主会场开幕式上,昆仑万维董事长兼CEO方汉以《从天工SkyMusic音乐大模型谈SOTA红利》为题发表演讲。

方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代技术导向才能带来市场上的领先优势,吸引大量用户并获取红利

OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河

在AGI和AIGC领域,昆仑万维研发出了天工3.0模型,包含音乐大模型SkyMusic和全球最大规模的开源MoE大模型。其中音乐大模型SkyMusic就处于音乐领域的SOTA地位

SkyMusic音乐大模型支持多种方言输出,具有辨识度的自然人声、降低音乐创作门槛和成本等,便于内容行业发展。基于音质、自然度和理解度方面的优势,即使是没有音乐背景的普通人也能够利用该技术进行音乐创作,而这也将极大地扩展音乐创作的可能性和范围。

此外,天工3.0大模型数学、推理、代码等方面能力大幅提升,同时具有多轮搜索与综合工具的调用能力,将带来内容行业的爆发,同时也将促进文化平权和打破垄断,让每个人更好地塑造和表达自我。

以下为方汉的演讲实录:

SOTA其实是一个学术上用得非常多的专有名词,全称是“State of the Art”,这个比较拗口,其实是当前技术指标第一的意思。这本来是在机器学习领域用来评估模型的一个技术指标,原本是个学术词,为什么会备受关注?

一、在垂类领域拿到SOTA,才能将技术红利转化市场红利

纵观这一波大模型的投资以及创业浪潮,可以发现一个明显的现象。在上一波移动互联网,所有创业公司的CEO或者Leader基本上都是产品或者是商务背景,也就是说移动互联网是商业模式和产品模式的创新,而这一波AI创业的大潮,所有AI公司的CEO基本上都是技术背景

为什么呢?因为在AI领域技术远远超过产品商业模式,技术的领先才能带来业务上的红利

举几个例子,首先不可避免要谈到这个行业的第一名,OpenAI。OpenAI为什么现在估值这么高,为什么全世界对它这么期许?因为本质上在ChatGPT之后,它在文本大模型上的SOTA地位一直非常稳固。直到Claude 3出来之后,才第一次有大模型可以接近GPT-4的位置,所以它赶忙抛出Sora,这是在视频生成领域的SOTA。也就是说在最泛化的通用人工智能、文本大模型领域,OpenAI的SOTA红利非常明显。

但是我们看图像生成赛道,DALL·E 3出来得非常早,但是很快像Midjourney、Stable Diffusion出来之后,这些中小型的创业公司获取大量的用户,远远超过OpenAI的DALL·E 3。为什么?就是因为DALL·E 3没有达到SOTA。SOTA被Midjourney以及后面的一些中小创业公司拿到,用户肯定会选择中小公司的产品,而不会选择其他公司的产品。

也就是说在任何一个领域,对于我们所有的创业者和后来者,只要你能在这个领域拿到技术指标上的第一,你就能够获取大量的用户。在获取大量用户之后,才可以用你的产品模式、商业模式把这些用户固化在你的平台上。

从长期来看,只要新的大模型和新的竞争者没有明显的代际压制的话,你仍然能够继续靠这些用户获取红利。就像Midjourney V6出来之后,它的SOTA地位已经不是很稳固了,但是用户基础仍然很坚实。

前面是我的一些背景介绍,当然中国企业因为进入大模型赛道,其实大家都蛮晚的,但是我们在全球的竞争中心仍然是坚持技术第一,我们一定要在某个垂类领域拿到SOTA之后,才能够由技术上的红利,转化为用户和市场上的红利

二、以天工大模型为底座,形成六大业务矩阵

首先给大家汇报一下昆仑万维是从什么时候开始做AGI和AIGC这件事情。

我们是2020年GPT-3出来的时候就成立了一支团队做文本大模型的预训练工作,2021年开始做音乐大模型的生成预研工作,当然我们也走过很多弯路,比如音乐大模型一开始走的符号生成,再转到端到端。现在所有垂直赛道到终局一定是端到端。

2022年12月,我们发布了中国首个开源文本大模型,当时海外的各种开源大模型也没出来,这是来自中国企业的第一个基于中文的13B开源文本大模型。

2023年4月17日,我们发布了天工1.0;8月23号发布了国内首个AI搜索“天工AI搜索”。今年4月17日,我们发布天工3.0,包含首个中国的音乐AIGC赛道的SOTA,也就是SkyMusic音乐生成模型,以及4000亿参数的全球最大规模的开源MoE大模型

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

目前我们有六大业务矩阵,包括AI大模型、AI搜索、AI音乐、AI视频、AI社交和AI游戏

虽然矩阵这么多,但我们目标非常清晰。首先我们一定要做底座模型——天工大模型,从原来的文本大模型到现在的MoE大模型,再到下一代多模态大模型,我们一定要在底座大模型上持续去演进。

为什么?因为现在有一个明显的现象,所有垂直赛道的各种垂类模型,不管音频、音乐、视频、图像还是3D模型其实都严重依赖于底座文本大模型的能力,如果底座文本大模型能力不行,各种垂类模型能力上限比较低。

社交、音乐、游戏和视频都属于AIGC垂类赛道,我们认为在这些垂类赛道上只要进行持续和长期的投入,就一定可以达到SOTA,从而获取市场上的领先优势

三、中国首个音乐AIGC上的SOTA,近2000万首全量音乐数据集

首先给大家介绍一下天工音乐大模型SkyMusic,这个现在已经对全量用户开放了,大家在App Store和应用商店搜索“天工”,“天工”里面有一个音乐的type,大家可以立刻去使用,这是中国第一个音乐AIGC上的SOTA

这是我们把剁椒鱼头的菜谱做成一首歌的案例演示,是用粤语演唱出来的。

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

这是天工AI音乐和庞博联合的案例,我们把庞博写的词做成了一首歌。

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

下面说一下技术指标,目前SkyMusic和Suno V3版本相比,在人声、BGM音质、人声自然度、发音可懂度方面都已经击败了Suno。我们相信在下一个版本里面可以把这个差距继续拉大。

AI音乐大模型,自2021年开始研发到现在走过三年历程,我们技术路线也在不断地演进。去年8月份Sora没有出来,我们就已经转向Diffusion Transformer架构,因为这个架构是最为Scale up的一种架构。

我们的数据集包含将近两千万首全量的音乐数据集,并且经过三年多的清洗和处理,其数据质量是有保障的。我们采用类DiT架构做了SkyMusic音乐大模型的研发,目前这个大模型还只是我们的第一个版本,后续在实验室版本会实现更多的功能。

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

下面介绍一下我们有哪些非常独特的优势。

用过Suno的都知道,你选择的是文本标签和风格。我们现在的制作方法是,上传一首你喜欢听的歌,甚至你自己录的一个旋律,我们都能根据这个生成音乐。这其实更像传统的音乐工作者创作音乐的一个逻辑,很多音乐工作者先在脑海或者嘴巴哼出一段曲子,然后写下来,根据这个再做主歌、副歌、编曲的工作,SkyMusic示例音源生成音乐的能力非常强。

第二,我们支持单一语种方言的输出能力。目前中文版本已经支持四川话、粤语、北京话、天津话、上海话等多种方言版本,这个对于用户来说是非常有意义的。

最后是更具辨识度的自然人声。人声的音源质量,以及对于各种人群,女声、男声、幼儿声和成人声,SkyMusic都有非常好的一个泛化。

当做到技术上的SOTA时,怎么把技术上的SOTA转为产品上的红利?

我们认为所有的AIGC,包括音乐创作的大模型出来后,首先极大降低了音乐创作门槛。

就像我发的朋友圈,“人人皆可以歌明志”。以前我们做一首歌的逻辑是什么?首先要从四五岁就开始学钢琴、学乐理、学乐谱。我自己的孩子在钢琴方面可能花了七八年才考到一个专业级别,这个训练时间很长。如果他能成为一个作曲家,可能还要在大学里面再学四年,学完四年之后这还只是作曲,作完曲还要编曲,编曲完还要找歌手演唱、找录音棚来录。我们在市场上录一首歌从头到尾,哪怕用最简化的配置、最普通的设备也要两万人民币左右。

这就导致了整个音乐创作,实际上仅仅依靠一个人是没有能力创作歌曲的,但是有了SkyMusic大模型之后,所有人只要花1分钟时间,只要你有歌词,就能生成一首完整的歌曲,极大降低了音乐创作的门槛和造福全体内容行业。

以前大家知道所谓的配乐全是拿现有的曲子往视频内容上配,今天可以把这个话题极大泛化,比如今天的主题演讲,可以给每一位主题演讲者配一首歌,比如微博上每一个大V给他们写一首关于他们的歌曲,这个对于全体的内容行业都非常便利。

最后,SkyMusic证明中国研发也可以在垂直领域取得全球的SOTA,从而让中国企业在全球的AIGC市场上去和国外的同行正面竞争,获取我们应有的市场份额。

四、4000亿参数开源MoE大模型天工3.0,拉低全领域创作门槛

下面介绍一下天工3.0,我们4月17日开启公测的4000亿参数的全球最大规模的开源MoE大模型,目前性能已经全部超越xAI发布的3140亿参数的MoE大模型Grok-1。这是天工3.0 400B参数的MoE大模型的技术底座,目前在MMBench推理能力测试中标蓝色的是处于领先的技术指标,我们在这个技术指标上还是遥遥领先的。

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

天工3.0,功能全面升级,它更聪明,模型的技术知识能力提升超过20%;数学、推理、代码、文创能力提升30%;内容创作能力,包括能搜索、能写作、能阅读、能聊天,能够语音对话,能够文生图,能够给你作词作曲。

给大家演示一下多轮搜索与综合工具的调用能力。图中问题是成都迪士尼怎么去,成都迪士尼实际上是一个梗,它是成都的一个小区,并不是真正的迪斯尼乐园。这时候通过搜索和大模型结合就判断出来成都迪士尼实际上是一个网络梗,但它还是把怎么去成都迪士尼这个小区规划做出来。当你问到上海迪士尼天气时候,大模型又生成一张天气卡片,告诉你今天上海迪士尼下雨,最后再调用文生图给你生成一张图片。

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

第二个研究模式,做研究需要写大纲、写知识图谱和思维导图,而天工3.0在自动搜索之后不仅仅能生成表格,而且可以迅速生成大纲和自动生成脑图,最后自动生成脑图,可以即贴即用。

智能体广场可以构建超强的AI智能体,去帮助你完成相应的工作。例如造一个智能体,帮助研究小米汽车和特斯拉汽车的一个差别,进行大量搜索获取大量资料后,模型开始生成文图俱备的对比表格,对于做文案工作的同学非常关键。

五、昆仑万维新使命:实现AGI,让每个人更好地塑造和表达自我

昆仑万维作为一家中国的互联网企业,现在的战略是All in AGI与AIGC。我们在2023年宣布了公司的新使命:实现通用人工智能,让每个人更好地塑造和表达自我

昆仑万维方汉:将技术红利转为市场红利,拿到垂直领域SOTA是前提丨GenAICon 2024

为什么要做这样一个使命的修正?因为实现通用人工智能,本质上是基于文本大模型把人类所有的知识压缩到我们的通用大模型里面,这样是通向通用人工智能的必经之路。

但是大家知道通用人工智能在现实中的落地是有先后之分的,什么样的场景会更容易落地?

其实也比较简单,有人开玩笑说,大模型刚出来的时候大家都觉得所有做生产工作的同学会最早失业,所有做创意艺术的同学应该是位置是最稳固的。但实际上经过这段时间的发展,大家可以看到,所有做文艺创作的同学失业概率会更大一些,也就是说在内容生成领域,其实AI的落地更容易。

很简单,因为内容生成领域容错率极高,用户对于内容错误忍耐度非常高。我们可以容忍我们画上、视频的人多一根手指头、少一根手指头。但是我们工作中,你哪怕小数点后面少一位,这都是巨大的生产事故。也就是说在容错率高的内容赛道,这一波大模型和人工智能的发挥空间是非常大的。

我们在人工智能、AIGC领域,研究目的就是降低创作的门槛。不管是文生图、文生视频、文生音乐、文生音效还是文生3D资产,本质上就是移除所有前序我们所需要的长期的专业训练,而让任何一个人觉得只要你会讲故事,就可以创造出相应的内容来表达你自己。

这会带来什么样的影响?首先大家知道创作内容的成本极大降低了,创作内容的门槛降低了。我们知道创作内容方面只要门槛降低,创作内容的人数会急剧膨胀。

举个例子,我小时候拍视频都是电视台记者扛几十公斤的摄像机拍,这时候创作者非常少。但是智能手机出现之后把拍摄者变成全中国十几亿人,人人可以拍视频,结果就是短视频行业的巨大发展。这一波AI把全领域的创作门槛都拉低了,结果是什么?整个内容行业会迎来一个巨大的爆发。同时,它还带来另外一个文化平权和打破垄断的作用。

为什么?我在非洲待了蛮长时间,在尼日利亚的时候,了解到尼日利亚拍一部在院线上线电影的平均成本是两万美金到二十万美金之间,这样拍出来的片子和中国四五亿人民币拍出来的《流浪地球》、美国四五亿美金拍出来的“漫威”系列电影相比,是毫无竞争力的。但是在我们下一代AIGC技术出来之后,我们认为全世界所有的弱势文化的人都可以用非常低廉的成本,创造出媲美欧美强势文化的内容。

这样的结果是什么?每个弱势文化的族群都可以通过AIGC技术来产生适合自己民族的文化、产生适合自己小语种的文化,这个对于全世界的文化平权是非常有意义的。这也就是第二条,让每个人更好塑造和表达自我,这也是研发人员在文生音乐、文生视频、文生小说、文生漫画等内容创作领域持续不断迭代改进的一个终极目的。

以上是方汉演讲内容的完整整理。