智东西(公众号:zhidxcom)
作者 | 程茜
编辑 | 心缘
百模大战背后,到底是重复造轮子还是百花齐放?
大模型成为时下全民关注的杭州亚运会中的高频词,阿里云AI绘画创作大模型“通义万相”、商汤科技“日日新”大模型体系SenseNova、百度地图基于文心交通大模型和自研“北斗高精”技术能力全新升级车道级导航3.0等产品施展拳脚;与此同时,国内大模型产品进入面向更广泛消费者提供服务的新阶段。上个月初,百度、字节跳动、商汤科技、紫东太初、百川智能、科大讯飞等十余家企业成为首批正式上线面向公众提供服务的产品。
大模型竞赛进入新阶段之际,然而,上百个大模型竞相迸发的背后,有限的赛道资源使得其逐渐同质化的趋势初现端倪。
从百度、阿里等互联网大厂,以及讯飞、360等各赛道头部玩家,大模型产品的界面、功能、使用方式都近乎一致。相似的对话框、测评中相差无几的性能得分、以PC为主的使用方式,使得用户有时只能靠“图标”来辨别不同的大模型。
当下,大模型的热潮尚未平息,其能力正在推动互联网产业变革,智东西与业内多位知名从业人士进行了深入交流,业界对于大模型同质化有以下三种看法,首先是认为大模型同质化是产业发展早期的正常阶段,其次为大模型的同质化表现的衡量标准很多,相关因素众多,不能以“同质化”一言以蔽之,第三种观点则坚决认为不会同质化,因为各家落地的主要场景不同。
对于大模型同质化现象背后的原因、未来探索的路径,小冰公司CEO李笛在2023Inclusion·外滩大会上接受智东西采访时谈道,自己最大的忧虑是国内大模型的多样性,大家用同样的数据集、同样的训练方法、同样的master,对比同样的对象、类似的方法,多样性确实有很大问题。“现在处于技术百花齐放的状态,应该尝试不同的东西,而不是马上数理化外语卷起来了”。
一、大模型界面、能力、使用方法,共性多过差异
从面向消费者的聊天机器人产品来看,其界面外观、能力、使用方法、效果都有雷同之处,用户往往无法通过其现有的Logo、布局等细小差别来快速进行区分。
首先从界面外观来看,相同的地方在于,聊天机器人的主页面大体可以分为三个部分,左侧为历史对话记录和新建对话,右侧上方为对话的具体内容,右侧下方为用户输入窗口。不同的地方在于,大模型产品Logo,也就是聊天机器人头像,以及实际页面中功能按钮的设计。
先来看Logo,单看下面几个图标,虽然其各有特色,但很难快速与产品实现一一对应。一般而言,Logo的高辨识度与其和内容的强相关性,以及用户日常使用的高频率相关,但目前来看,前者属性并不明显,后者因为文心一言、智谱AI、讯飞星火等刚于9月初面向全民开放,因此其同样尚未形成大多用户的高频使用工具。
▲聊天机器人产品Logo(从左至右依次是360智脑、百川大模型、商量、通义千问、文心一言、讯飞星火)
此外,在界面设计上,聊天机器人产品除了输入、输出、重新生成、查看编辑历史对话记录、新建对话这些标准功能外,还有更加个性化的语音输入、语音输出、搜索增强,但具备后续几个功能入口的产品仅为少数。
值得一提的是,因为一些企业将文生图、文生文的产品进行了独立区分,用户还需要通过另一款产品来上传图片。
其次,从大模型的能力来看,根据输入输出形式可以分为文图互生、文文互生、文生音视频等,其中前两类的应用较为广泛,基于此,大模型的实际能力包括内容生成、理解、逻辑推理、代码生成等,虽然不同大模型的能力表述不同,但基本都集中于此。
创新奇智CTO张发恩在和智东西交流时也谈道,大模型目前的应用场景基本上都是常识性问答、解数学题、逻辑推理、文本润色等。而大模型能力应用的现状也都近乎相同:常识性问答的能力很多情况下能被搜索引擎代替,数学题、逻辑推理的准确度并不能被用户完全信任,文本修饰能力没有太大差距。
这也可以从通用中文大模型测评标准的判定基准来看,都是从不同维度考验大模型的文图互生、文文互生能力。如新华社联合北大发布的《人工智能大模型体验报告2.0》中,按照基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行设计,中文通用大模型综合性评测基准SuperCLUE针对的是语言理解与生成、知识理解与应用、专业能力、环境适应与安全性。
再从评测效果来看,因为各家的评判标准、参考维度不同,因此实际排名效果不尽相同。如新华社报告中综合能力排名第一的为星火大模型,SuperCLUE的8月榜单中排名第一的为百川大模型。这也侧面印证了大模型能力在实际表现中,没有某一个的能力可与其它产品拉开很大差距。
最后从使用方式来看,各家的大模型产品使用载体也多集中于网页端和APP端两种。
综合来看,大模型从界面到功能,到实际效果的具体呈现,都没有一个与其它相比有较大差距。
二、同质化趋势有迹可循,剑指三大底层逻辑
透过表象看本质,大模型的同质化现象可以归结于以下几大原因:
还是从直观的界面设计说起,不论ChatGPT还是国内聊天机器人,用户点击进去就可以立马上手使用,不需要花费很大的学习成本,并且其和微信等人们日常使用的社交软件近似。潘森斯设计学院的助理教授Kyle Li认为,简单的对话界面更适合于帮助人们熟悉、了解新的、陌生的技术,并且用户可以通过一个界面完成各种工作。
但这背后的隐患就是,相似的界面设计无法使用户对某一产品留下深刻印象,但这些产品之后想要调整设计,也会面临不符合用户使用习惯被抛弃的风险。
其次从技术路线来看,目前大模型训练的方式都较为集中。2017年,Transformer架构的出现奠定了大模型研究的基础。
Transformer架构包含Encoder和Decoder,又诞生了三大训练路径,包括OpenAI主导的基于Decoder的GPT路线,谷歌AI研究院提出的基于Encoder的BERT路径,以及两者兼具的T5模型。
三种技术路线都有适配的场景,研究早期,参数规模较小时BERT模型的效果优于GPT模型,随着模型的参数规模增大,GPT-3模型的效果更好,并且BERT模型是基于双向编码的预训练模型,在理解上下文意思上表现更好,GPT是基于语言模型的生成效果,更适用于文本生成任务,T5则更适用于参数规模较小的大型语言模型生成任务中。
▲从GPT-1到GPT-4的对比(图源:《GPT-4核心技术分析报告》)
今年3月,新浪微博资深算法专家张俊林曾在中国人民大学高瓴人工智能学院主办的AIGC论坛中分享道,到2019年后,BERT路线基本上就没有什么标志性的新模型出现了,而GPT技术路线趋于繁荣。从BERT往GPT走,模型越来越大,做的事越来越通用。
除此以外,也有企业在探索创新架构,如智谱AI在GPT、BERT、T5之外提出了自己的新模型训练架构,那就是GLM(通用语言模型)路径。
但值得注意的是,大模型的底层技术路线已经成型,如今创新架构的研究仍处于初期,大多企业都集中于已有技术路径,未来当其同质化属性的弊端愈加凸显,实现“大象转身”则难上加难。
第三大原因是数据。大模型最重要的三大要素,数据、算力、算法,其中训练数据也是造成大模型同质化的一大原因之一。未来智能CEO马啸告诉智东西,OpenAI的胜利本质上还是数据清洗的胜利,因此企业比拼的是“谁清洗的数据精准”。因此,大模型能力的区别很大程度在于“怎么投喂数据”。
大型语言模型的训练数据主要来自公开数据集、企业私有数据集、互联网公开数据等。公开数据集对于各家大型语言模型研发者来说,起点一样。基础大模型可选的数据集类型多以开源为主,手握更高质量行业、私域数据的企业也并不会将其开放给大模型。
清华大学惠妍讲席教授、清华大学电子工程系长聘教授、北京衔远科技创始人周伯文在2023世界人工智能大会期间接受媒体采访时提到,目前通用大模型的训练数据集多来自互联网文本数据。因此,企业拿到的公开数据在一定程度上有很大重复性。
再加上国内中文开源数据集的数量远不及英文,也成为国内大模型实现差异化竞争的一道门槛。不过,值得注意的是,中文开源数据集的构建正在加快。
今年以来,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》中提到,要整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。
还有复旦大学团队开源中文医疗领域的47万高质量监督微调(SFT)数据集DISC-Med-SFT、华为诺亚方舟实验室开源了第一个亿级中文多模态数据集悟空等。
即便开源数据集的数量和质量都在提升,但对于研发大模型的企业而言,其仍处于同一起跑线,开源数据集无法快速帮助其构建差异化大模型。
基础大模型的这些客观属性一定程度上奠定了其现在呈现出同质化的倾向,但下一阶段随着各家企业的技术积累越来越多,大模型的应用场景逐渐清晰,在同质化基础上呈现出差异化的趋势当下仍是未知数。
三、三大产业观点交锋,大模型同质化难题待解
不过,身处其中的大型语言模型研发者对于同质化的看法也有差别。
一种观点认为大模型同质化是产业发展早期的正常阶段,一种观点认为大模型的同质化表现的衡量标准很多,相关因素众多,不能以“同质化”一言以蔽之,第三种观点则坚决认为不会同质化,因为各家落地的主要场景不同。
不同观点的存在,是站在不同维度上看待大模型的发展。第一种是站在技术演进的角度,第二种从用户使用的需求,第三种从大模型提供者的角色定位来看。
目前,百川智能创始人、CEO王小川,复旦大学计算机学院、复旦大学MOSS系统负责人邱锡鹏,蚂蚁集团副总裁徐鹏,小冰公司CEO李笛都是第一种观点的支持者。他们都认为现在国内大模型产业都处于追赶、“跟进复刻”的阶段。
王小川在与智东西交流时谈道,现阶段企业对标的东西就一个(ChatGPT),要么拉满、要么同步,因此这个阶段是不可避免的。邱锡鹏在8月上海市科协举办的青年科学家论坛中谈道,现在大家做的东西总体上比较雷同,比如说像预训练,有创新性的东西总体不多。
当国内玩家赶超ChatGPT后,或者说技术积累达到一定阶段,企业自身的优势,才会在大模型产业中显现出来,使得其呈现出差异化。李迪的观点也印证了这一趋势,他告诉智东西,大模型首先得追及格,再去尝试多样化、差异化,重复造轮子没有必要,在应用上才能实现大的发展。
徐鹏解释道,大模型技术上没有本质的差异,但侧重点不一样,开源、闭源等大模型,既有雷同的地方,又有各自特色。并且据他观察,美国很多公司放弃走基础模型这条路,直接在上面做能够创造附加价值的应用,而应用多样性才能给人类、给社会带来价值。
可以看出,这种观点普遍认为现阶段雷同的大模型发展背后隐藏的是应用端的创新突破。专注于工业制造领域的张发恩在与智东西交流时也提到,创新奇智布局的工业制造业领域,大模型的应用场景十分多样性且贴合行业痛点,可以有效规避大模型的同质化。
第二种观点是用户对于大模型产品的需求十分复杂,因此用户使用侧重点等也一定会有不同。
讯飞研究院院长刘聪告诉智东西,大模型是否同质化与产品最终呈现的效果有关,真正每天都在用大模型的用户会根据自己最切实的需求选择到适配的大模型。用户对于ChatGPT的尝试仍停留在较为初级的阶段,更强大的数据分析、写代码等能力对于用户自身能力的要求也更高,一些功能对于大部分用户而言有一定的门槛。
因此,“同质化”应该辩证地看待,不能仅从大模型呈现出的能力下决断,单从用户层面来看,就有数量繁多的分类,如对大模型有较大需求的用户,没有很大需求的用户,对单一功能有需求的用户,对综合功能有需求的用户等。
第三种观点是大模型同质化不会出现。
360集团创始人、董事长兼CEO周鸿祎此前在接受媒体采访时提到,各大互联网公司在C端都有各自的固定场景,例如腾讯在社交,百度在搜索,360在搜索、浏览器、桌面等。除此以外,大模型还会产生很多增量场景。
即便现在关于大模型同质化的论调并不一致,但其所呈现的界面、设计等仍需参与者警醒,在技术探索的路途中想明白下一步该做什么更为关键。
归根结底,大模型走向应用落地时,其产品能力是否契合用户的核心痛点,并且做到好用、可用、易用,这些关键因素的共同作用是其实现差异化竞争的基础。
结语:需警惕大模型同质化“陷阱”
目前来看,大模型同质化趋势仍然处于较为早期的阶段,且并没有对企业或者产业的发展产生实质性的影响。但在有限的赛道资源内,一窝蜂涌入如此多的参与者,势必会对产品如何打出差异化提出更高的要求。
再加上曾经声名大噪的ChatGPT传出热度渐热,用户浏览量减弱的同时,国内大模型产品在众多特性驱动的表面背后,如何找到核心优势抓住用户十分关键。因此,大模型同质化是众多大模型参与玩家无法绕开的一道命题。