5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大

智东西(公众号:zhidxcom)
作者 | 徐珊
编辑 | 漠影

智东西3月26日报道,近日,全球增长咨询公司弗若斯特沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一

当下正值文心一言发布一周年,从去年3月文心一言发布到如今的文心大模型4.0版本,用户们见证了文心一言的迅猛成长,这不仅代表的是搜索平台、工具的迭代升级,更是人们对信息获取、理解和应用的一次全面革新。

在过去这一年里,大模型及生成式AI工具爆发式增长,正改变着传统工作流程,重塑各行各业。百度创始人、CEO李彦宏在今年3月的财报会议上提到,文心大模型的日调用量已超过5000万次,大约有2.6万家企业调用文心大模型,每1分钟企业调用文心大模型的次数超过3.4万次。

在以文心一言为代表的大模型狂飙的这一年里,我们从最新的成绩单中,看到了中国大模型产业发展的新动力。

一、技术扎实可打,文心一言还是国产大模型一哥

近期,沙利文发布的《2024年中国⼤模型能⼒评测》对国内主流的15个大模型进行了横评,从而将中国大模型分成了三个梯队

如下图所示,百度、腾讯、阿里等互联网大厂旗下大模型位于第一梯队,综合表现更为优异。其中,文心一言能力最为全面,五项评测维度均为优势能力,并取得四项第一。

5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大

▲沙利文《2024年中国大模型能力评测》:大模型综合竞争力气泡图

评测主打一个全面综合,维度包括通用基础能力专业应用能力两大方面。

具体来说,通用基础能力重点评估⼤模型在语言理解、知识储备、道德风险控制等方面的表现,以揭示其在自然语言理解和交互水平上的能力。而专业应用能力则着重检验⼤模型在实际应用中的效能与价值,通过考察其在任务规划、超长文本处理、行业内容生成等方面的表现,以衡量⼤模型在不同应用场景下的实际价值产出能力。

报告显示,文心一言在通⽤基础能⼒评测中超越部分国际大模型,能够精确解析⽂本、捕捉语义,并⽣成符合语法和语境规则的⽂本。但我们也能看到国际领先模型在通⽤基础能⼒和专业应⽤能⼒上略优于中国领先模型。

整体测评中,文心一言拿下数理科学、语言能力、道德责任、行业能力综合能力等五大评测维度的四项第一,在21个细化二级维度均表现突出。

5大维度21项细分能力拿下国产大模型首位,文心一言还是那个老大

▲文心一言综合表现最佳:5大维度取得4项第一

沙利文预测,2024年,大模型的技术发展将趋向多功能与小型化,同时产业端将强调自主研发和行业标准化,而伦理责任和数据标准规范将成为持续发展的关键。

二、技术为根,客户+应用成国产大模型“新考场”

过去一年间,中国大模型如雨后春笋般涌现。

根据国家数据局3月25日发布的最新工作报告,中国10亿参数规模以上的大模型数量已超100个,行业大模型深度赋能电子信息、医疗、交通等领域,形成上百种应用模式,赋能千行百业。

千行百业的客户与应用正成为国产大模型的“新考场”,AI根技术的“试金石”。

以“带头大哥”文心一言为例,过去一年,百度基于独有的四层AI技术架构,分别从芯片、框架、模型和应用层面出发,迭代技术。

尤其是框架和模型的协同优化,让文心大模型能不断提升效率。飞桨在过去一年里不断升级,向上支撑大模型生产,提高模型部署效率和灵活性;向下适配各类硬件,提高硬件适配效率和降低成本。据了解,如今文心大模型不断降低推理成本,目前已降至去年3月版本的1%。

同时为了让更多人用起大模型,百度推出了两款MaaS产品,用于应用开发的千帆AppBuilder和用于专有模型开发精调的千帆ModelBuilder,累计帮助用户精调1.3万个大模型,服务8万企业用户,帮助用户开发出16万个大模型应用。

截至目前,文心大模型的日调用量已超过5000万次,季度环比增长190%;去年12月,约有2.6万家企业调用文心大模型,季度环比增长150%。三星、荣耀、汽车之家等知名企业均与百度达成合作。

总的来说,只有技术和客户应用两手抓,大模型发展才是抓住了“牛鼻子”。

随着2024年的“百模大战”进入深水区,大模型产业将迎来玩家新洗牌。一方面,模型技术迭代和评测比拼将继续挑战极限;另一方面,大模型技术与行业应用加深结合,有推动证新的“灯塔式”案例跑出来,从而为产业筛选出更加有实力的选手。

三、用户生态,大模型未来图景哺育者

“独木不成林”,大模型产业的发展需要生态共建。

大语言模型的出现,犹如热带雨林里蝴蝶轻轻扇动的翅膀,悄然间引发了一场深刻改变人们生活的“龙卷风”。而掀起这阵龙卷风的,不仅是AI大模型厂商,还有众多上下游的AI应用开发者、行业从业者及工程商等伙伴。

过去一年里,52岁的虎哥在这场AI“龙卷风”中找到了自己的第一个着陆点——利用AI助力考研。他通过文心一言帮助自己记忆知识点、总结归纳重点,用了100天的时间在考研的初试中取得了398的高分。如今,他称自己的这套学习方法为“AI学习法”。

“最简单的就是拿这个题直接去问文心一言,AI就会直接给我答案。”虎哥回顾自己的AI学习法时说。他还让文心一言提供“1小时快速回顾高中化学知识的计划”、“AI解答所有不能够理解的地方”、“让AI给出政治题参考答案,并总结成三个关键词背诵”等等。

“AI学习法,我觉得要学、要用就要尽快用,因为大家都会用了以后,你的时间差就没有了。”虎哥在谈到AI学习的好处时分享道。他还对比了ChatGPT和文心一言4.0,在中文回答上能感受到文心一言有时更胜一筹。

生成式AI不仅成为了虎哥的学习神器,也能成为一些特殊人群的“AI良药”。95后的李朋程和其团队也是通过文心一言打造了帮听障人士学说话的产品“声桥AI语训”。

凭借文心大模型的能力,“声桥AI语训”能够有效比对使用者的发音与标准发音之间的差异,并据此以文字形式提供针对性的正确发音指导,帮助用户改善发音质量。这也让部分听障群体能够在一遍遍的比对之中,听懂声音的含义、学会张口说话,纠正发音的偏差,从而节省下高达十几万的康复训练费用。

10后的熠墨小朋友通过文心一言,成功为自己的妹妹复刻出一个“数字爸爸”,让这个虚拟的陪伴者能够陪伴妹妹聊天,时刻维持着亲情的温暖。谢菲尔德大学的博士生彭煦潭,借助飞桨AI技术,开发出了一款“汉语-少数民族语言”词典,实现了汉语与少数民族语言之间的顺畅翻译,让少数民族语言能够在更广阔的范围内得到应用。

站在国产大模型狂飙突进一周年的节点上,我们看到,大模型的创新已层出不穷,一些有价值的应用也已经陆续出现,同时要真正走到规模化部署仍有一定距离。

2024年有望成为大模型落地应用元年。随着AI进入千行百业,它不仅让人们的生活和生产更便捷,也能帮人们将爱与善意具象化。随着用户生态的发展壮大,我们离大模型的未来图景将更近一步。