智东西(公众号:zhidxcom
作者 | 程茜
编辑 | 漠影

看多了官方的大模型评测榜,全民参与票选的模型测评你见过吗?

智东西6月13日报道,昨天,扣子(coze.cn)重磅推出扣子模型广场,打造了在线大模型对比与评估系统。

简单来说,扣子模型广场就相当于大模型的竞技场,通过1V1的开发者匿名投票,让大模型决胜负,让开发者找到最适合自己需求的模型。

扣子模型广场的主页在匿名对战栏目有三种对战模式,包括指定Bot对战、随机Bot对战、纯模型对战。开发者可以与不同类型的Bot进行对话交互,根据其输出的完整内容进行投票。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

在开发者做出投票之前,各个Bot背后的模型都处于未知状态,一旦模型被暴露,这一投票就被视为无效,主打公开、公正、公平。

同时,扣子联合Intel启动了主题Bot征集活动AI工坊,为更多Bot提供了创意碰撞的平台。

从Bot打造的全链路工具支撑,再到模型竞技场、主题Bot征集,扣子的生态逐渐壮大,正在为开发者提供共享知识、技能、资源平台的同时加速AI应用的落地。

一、模型竞技场!免费可用、先隐藏“战力”公开投票

想要打造出实用、好用的AI应用,其中一个必要条件就是:找到合适的模型,以此来确保应用的效率、准确性和可扩展性。那么,判断模型能力最直观的办法就是打PK。扣子模型广场就为模型对战搭建了“擂台”。

扣子平台上已经接入了豆包、通义千问、智谱AI、MiniMax、月之暗面、百川智能等国内知名的大语言模型,这些模型都可以参与PK。

模型广场的赛制简单明了:1v1 PK、匿名对战、公开投票竞选,其中提供了三种对战模式,随机对战、纯模型对战、指定Bot对战。指定Bot对战中,模型广场目前已经提供了信息分析与处理、知识应用、推理能力、编码能力、任务解决、生成创作、角色扮演类型的Bot。

具体的对战模式就是,Bot或者模型根据开发者提供的同一个问题“现场作答”,其中一个模型输出完整回复后,对话界面下方就会出现投票按钮。当然,在投票之前,这些Bot背后的模型都处于匿名状态,只有当投票结束后才会揭晓其背后的模型信息。

话不多说,先来实际体验一下。

假定我需要信息分析与处理能力强的模型,就可以点击“找工作就找我”Bot进行对战,左右两边的模型分别回答了“帮我找在北京的前端开发工程师的工作”这一问题。

可以看到,左侧模型率先完成回答,下方就会出现A表现更好、两个都好、两个都差、B表现更好四个选项。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

当开发者做出选择后,就会显示两个Bot背后的模型。

与此同时,开发者点击分享还能直接看到有比拼结果、过程的长图,可以直观对比两个模型的输出内容。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

经测试,即便是同一个Bot也不会出现同一个模型连续PK的情况。

还有一种对战模式是纯模型对战,在不指定任何Bot的情况下,系统会随机选择两个模型展开对决。

先拿最近被热议的高考作文来测试下。与Bot对战的模式类似,对话界面下方会出现四个投票选项,结果公示后呈现模型的具体信息。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

这些测试、PK模式开发者均可以免费参与、打开即用,并且这三类对战模式的结果对于开发者而言各有不同。

指定Bot对战更为聚焦,开发者可以基于此评测模型在指定细分领域的文本生成、技能和知识调用能力;随机Bot对战面向的范围就更广,适用于任意场景的能力评测;纯模型对战因不受编排、工作流等配置的限制和影响,可以用来帮助开发者评测模型本身的文本生成等能力。

通过这类准确、自定义的对决模式,可以让开发者能更准确的明确模型最擅长的能力。在百模大战、千模大战硝烟仍在弥漫的当下,这对于开发者快速准确找到能满足自己需求的模型,开发出好用且实用的应用至关重要。

二、对决公开、公平、公正,一旦模型暴露投票无效

扣子模型广场真正让模型的能力对决摆到了台面上,摆到了每一个开发者面前。

当下,各大模型厂商近乎疯狂地打起了价格战,更是有厂商直接官宣部分模型免费,这无疑给开发者带来更多的选择空间,使其开发成本降低。

但面对丰富多元的模型,开发者该怎么选,或者说如何选才能最快找到更符合自己应用需求的模型?

目前在评测大模型性能方面,各式各样的评测榜单成为开发者快速进行技术选型的工作,开发者可以基于不同模型在标准测试集上的性能比较,找到细分场景的模型“王者”。

但实际上,这些大模型评测榜单的测试基准大致相同,虽然有一定的参考性但无法真正在实际应用场景中实现能力的PK,因此开发者还需费时费力去测试体验,从而找到更贴合其细分应用场景的模型。

事实上,开发者在选择模型时,应用场景的特定需求、数据集的特点、资源限制等诸多因素都对应用的开发具有决定性作用。

在此背景下,扣子模型广场的对决结果唯一基准就是其生成的内容,这也使得结果更为客观。同时,综合众多开发者的共同选择,接受多元问题考验的模型能力比拼就更具说服力。

此外,扣子模型广场的对决规则中可以看出,为了保证模型评测的公平性,其对不同模式的模型参数配置策略、投票规则、对战限制等进行了明确要求。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

值得注意的是,模型对战时,如果对话过程中已暴露或者试图暴露模型的身份,这一对决投票就会被视为无效投票。

对于AI开发者生态而言,扣子模型广场可以帮助他们在有限的资源中更高效便捷的进行开发。

三、技术平台+创意聚集区,扣子生态正茁壮成长

可以看出,以扣子平台为核心的AI开发者生态的边界正在不断外延。

AI应用开发平台扣子自今年2月发布以来,就让开发者的应用开发门槛一降再降。

首先,无论用户是否有编程基础都可以在扣子上快速搭建基于大模型的Bot。比如扣子的Home Bot就可以通过对话交互的方式一句话创建Bot,同时用户还可以直接搜索调用不同的Bot与之对话。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负

其次,为扩展Bot的各项技能,扣子中提供了超过60款内置插件和支持创建自定义插件,以此来扩展Bot的能力边界。

在工作流功能中,扣子还可以被用来处理复杂的逻辑判断以及有较高稳定性要求的任务流,用户通过简单的拖拉拽就可以快速搭建一个工作流。

第三,为了让Bot拥有更加个性化的知识储备,扣子提供了简单易用的知识库功能来管理和存储数据,使得Bot可以与自己的数据进行交互,同时支持文本、表格等多种形式的知识存储。

第四,在长期记忆方面,扣子提供了方便AI交互的数据库记忆能力。

最后就是交互体验,扣子支持配置开场白、用户问题建议、快捷指令、背景图片、语音等,还支持卡片格式输出。

在Bot搭建完成后,扣子还可以帮助用户将其一键发布到豆包、飞书等平台。目前,饮食、运动、金融、招聘等行业都已经依托于扣子的能力构建了Bot,如招商银行的推荐餐饮优惠门店的“掌上生活优惠”Bot、分析市场行情的“财富看点”Bot;猎聘“找工作助手”Bot等。

这样全流程的Bot构建体系,使得大模型的相关应用开发边界逐渐外延,深入千行百业。如今,模型竞技广场的发布,让Bot在解决人们实际需求层面的价值更加直观。

与此同时,扣子还联合Intel推出了主题Bot征集活动扣子AI工坊,涵盖图文创作赛道、实用工具赛道、互动创意赛道三大赛道,让更多开发者的应用成果被看见,让AI能力被真正释放出来。

扣子已经从一个功能强大的技术平台,逐渐向外扩展成为AI开发者碰撞创意火花的舞台。

结语:扣子,为开发者破局

扣子在模型层面的开放性以及与Bot强结合的场景下,通过模型的直接PK让开发者直观感知Bot的能力与价值,并且模型的评测标准还能由开发者自定义,能让开发者在有限的资源条件下加速AI应用落地。

同时,不论从技术工具链还是服务体系来看,扣子的生态正在极速扩张,为开发者在大模型时代打开了更多的想象空间。

国产大模型打擂台!扣子模型广场亮相,三种对战模式、匿名投票决胜负