智东西(公众号:zhidxcom)
作者 |  毕伟豪
编辑 |  心缘

智东西6月22日报道,今天,日本AI独角兽Sakana AI发布了Sakana Fugu系列编排器模型,包括Fugu Ultra和Fugu两款模型。其中Fugu Ultra模型在工程、科学和推理基准测试中,性能接近或超越了Fable 5以及Mythos Preview等顶尖模型。

又一大模型发布!号称比肩Fable 5和Mythos

和传统大语言模型不同的是,Sakana Fugu不会自己回答问题,它会调用世界上各种模型来完成任务。简单来说,Sakana Fugu像一个“总指挥”,会根据任务选择最佳的模型来处理

Fugu在日文中是河豚的意思,从官方发布的动画可以看出,Sakana Fugu是要用多个“小鱼”汇聚成一个“大河豚”这种美味食材。

又一大模型发布!号称比肩Fable 5和Mythos

Sakana AI是一家日本AI独角兽,成立于2023年,由Transformer论文第五作者Llion Jones联合创办,曾用“进化”的方式,通过小模型组合实现堪比大模型的能力。如今,他们在Sakana Fugu在技术报告提出了训练模型的新思路:让一个模型学会调度多个模型,把不同特长不同的大模型组织起来,形成一种“集体智能”

Sakana AI在博客中提出,编排模型将会超越传统大模型成为新的前沿方向。他们认为,过去几年AI进步靠暴力堆算力和数据,但现实复杂任务需要的专业知识远超单一模型的能力边界。充分发挥模型的最佳性能需要集体智慧,需要知道何时该用哪个模型、什么时候委派、怎么组合擅长不同领域的模型。

同时,这种编排不仅是技术上的进步,更是地缘政治的产物。Sakana AI从近期Anthropic模型被施加出口管制中吸取教训,认为绑定单一供应商,访问权限可能会一夜消失,而Fugu的底层模型池完全可替换,一家断供就换另一家,Sakana AI称之为“AI主权的现实蓝图”

Sakana AI在博客中提出,Fugu本身是一个专门用于理解何时委派任务、Agent之间如何通信以及如何将它们的工作整合为一个可靠答案的语言模型。这套技术路线建立在此前团队关于学习模型编排的研究之上,包括在ICLR 2026上发表的论文Trinity和Conductor。

技术报告地址:

https://github.com/SakanaAI/fugu/blob/main/Fugu_technical_report.pdf

体验地址:

https://sakana.ai/fugu

一、超越Mythos Preview和Fable 5,调度最强模型完成任务

技术报告列出了Fugu系列在覆盖编程、推理、科学、Agent能力四个维度的八个基准测试上的表现,报告显示Fugu系列在这些评测中达到或接近尖端模型的水平。

又一大模型发布!号称比肩Fable 5和Mythos

技术报告显示,Fugu模型仅通过智能调度,就在三项基准测试中超越了Mythos Preview和Fable 5的能力

又一大模型发布!号称比肩Fable 5和Mythos

在跨领域的适应性方面,Terminal Bench测试中,Fugu和Fugu Ultra调用模型的峰值都集中于在该测试中表现顶尖的GPT-5.5。而在GPQADiamond测试中,Gemini-3.1-Pro作为领先模型,两款Fugu模型都将其调度核心围绕Gemini展开。

又一大模型发布!号称比肩Fable 5和Mythos

Fugu拿高分的方式跟传统模型完全不同,它没有训练一个更强的基座去解题,而是去判断这道题该派交给哪个模型、怎么拆解任务、如何校验检查,最终综合得到的答案的质量超过多个单一模型独立作答所得。

这正是技术报告反复强调的核心定位:Fugu的技术价值不在于替代GPT、Claude、Gemini这些模型,而在于把这些模型的能力组合起来。现在的大模型中,有的擅长数学推理、有的擅长代码工程、有的擅长安全分析,随着不同模型各自形成特长,编排能力本身正在成为一种独立的竞争力

二、四大机制让Fugu指挥模型军团

报告解读了Fugu的四个基础机制:

第一,识别问题类型。判断用户问题是代码、数学、推理、信息检索、科学分析还是多模态任务,这一步决定了后续整个派活逻辑的起点。

第二,选择合适的worker模型。不同模型在不同任务上的表现差异很大,Fugu被训练的目标之一就是学会在什么问题上该调用什么模型,报告提到,即使在同一类任务内部,比如竞赛性质的编程,不同模型也可能分别擅长直接实现、制定解题计划或组合多种算法思路,Fugu需要把这些细微的差异也纳入决策。

第三,设计Agent工作流。对复杂问题,Fugu Ultra会生成完整的agentic workflow,包括任务拆分、子任务分配、上下文共享策略以及最终答案合成,全部可以在模型内部以自然语言完成。

第四,根据反馈优化。Fugu的训练不止监督微调,还包括进化算法和强化学习,用真实任务结果来反向优化编排策略,这种策略让它知道怎么让合适的模型去做合适的事。

Sakana Fugu共有两个版本的模型,分别为Fugu和Fugu-Ultra。Fugu更强调日常使用,侧重性能和延迟平衡,在保证较高质量的同时,尽量快速响应。因此它不会每次都进行非常复杂的多Agent协作,会通过一个轻量选择机制,快速判断哪个worker模型更适合当前任务。

又一大模型发布!号称比肩Fable 5和Mythos

Fugu-Ultra则更偏向质量优先。它会使用更复杂的编排方式,把任务拆成多个子任务,安排不同Agent去处理,随后再进行综合。这种方式响应时间可能更长,但更适合高难度问题,例如复杂代码任务、数学推理、科学问题、多步骤规划等。

两者的共同点是与模型无关的完全模块化,Sakana Fugu不需要访问worker模型的权重,甚至不需要它们是开源的。新模型发布后可以直接加入worker模型池,用户可以根据成本、隐私、合规等需求定制可用的模型列表

三、解魔方、下盲棋,没被洗车问题难倒

Sakana Fugu技术报告附录中有几个实验:

一个是“一次性魔方求解器”。模型需要一次性写出一个Python标准库实现的魔方求解程序,并在300个乱序魔方上测试。报告称Fugu和Fugu-Ultra都成功解出了全部魔方,其中Fugu-Ultra的平均步数更短,Fugu的运行速度更快。

又一大模型发布!号称比肩Fable 5和Mythos

另一个是“盲棋测试”。模型在看不到棋盘、没有合法走法列表、没有FEN的情况下,只根据历史走法继续下棋。这个实验主要测试模型是否能长期维护内部状态。报告展示的几盘代表性对局中,Fugu战胜了多个基线模型和限制强度的Stockfish。

又一大模型发布!号称比肩Fable 5和Mythos

还有一个是“在线股票交易”实验。模型只能看到过去和当前的匿名市场数据,不能偷看未来价格,需要逐周做买入、持有或卖出决策。报告称Fugu-Ultra在五次运行中取得了更高平均收益。

又一大模型发布!号称比肩Fable 5和Mythos

这些实验未必可以直接代表模型的实际能力,但它们展示了Fugu想证明的一件事:编排模型可以处理好需要长期运行、策略调整以及多步骤执行的任务。

有网友使用Fugu-Ultra去处理了一些让很多模型崩溃的问题,比如strawberry(草莓)中有几个“r”、5.11比5.1大吗以及经典洗车问题,他直呼把Fable找回来了。可以看到Fugu-Ultra在这三个问题上的回答都是正确的。

又一大模型发布!号称比肩Fable 5和Mythos

Sakana Fugu技术报告中最值得关注的,是它提出了一种模型研究的新路径

过去我们常问哪个模型最强,而Sakana Fugu提出的新问题是如何让多个尖端模型协同起来更强。

这会带来几个变化:第一,模型能力会变得更加模块化。新模型发布后,可以直接加入worker池,成为某类任务的专家;第二,用户控制权更强。企业或个人可以根据隐私、合规、成本、延迟、供应商偏好来配置模型池。第三,AI竞争可能从“单一模型能力”扩展到“系统组织能力”。谁更会调度模型、使用工具、设计工作流、整合反馈,谁就会拥有更强大的能力。

当然,技术报告中的测试结果来自于厂商,实际能力还要看真实开发者的使用体验,其次,多模型编排会带来更高成本和更高的延迟,特别是Fugu-Ultra这类深度协作模式。同时,多模型系统的错误归因会更复杂,一旦最终答案出错,很难分清是路由、worker模型还是综合过程出错。

此外,编排器模型本身也可能出现偏差,它如果错误判断任务类型,或者过度依赖某个模型,就可能削弱整体表现。因此,Sakana Fugu的路线虽然很有潜力,但真正落地仍需要大量工程验证。

结语:入局大模型训练的新方式

Sakana Fugu系列模型的发布表明,AI的下一阶段,可能不只是更大更强的单一模型,还有更会协作的模型系统

如果说过去的大模型竞争是在培养“超级智能”,那么Sakana Fugu的方向就是在训练“超级指挥”让模型专门去学习如何分工、协调、验证以及综合。在大模型领域被少数顶尖模型厂商统治的现在,这个只调度不执行的模型训练方式,或许是当下入局大模型训练的新方式