智东西(公众号:zhidxcom)
作者 | 王涵
编辑 | 心缘

智东西5月15日报道,今天,蚂蚁百灵旗舰级思考模型Ring-2.6-1T开源,该模型于5月9日正式发布。Ring-2.6-1T引入了可调节的Reasoning Effort机制,支持high与xhigh两种推理强度,开发者可以根据任务特性动态分配推理资源。

其中,high模式面向高频Agent工作流获得更高效率,适合多轮对话、工具协作与任务拆解;xhigh模式则面向数学竞赛、科研分析等高难任务。

又一国产万亿参数模型开源!养“龙虾”实力超GPT-5.4

基准测试方面,high模式下,其在评估OpenClaw框架适配能力的PinchBench得分87.60高于GPT-5.4 xHigh和Gemini-3.1-Pro high;在考察长程任务自主推进能力的Tau2-Bench Telecom测试中达到95.32分的成绩,Agent场景执行能力较强。

xhigh模式下,Ring-2.6-1T在数学推理能力测试AIME 26中得分95.83与DeepSeek V4 Pro Max持平;在研究生级别科学推理能力测试GPQA Diamond中,该模型得到88.27分,表现还略逊于Kimi-K2.6 Thinking等同类模型。

又一国产万亿参数模型开源!养“龙虾”实力超GPT-5.4

在训练层面,Ring-2.6-1T采用异步(Async)强化学习训练架构,将策略采样与参数更新解耦为独立流水线,解决了传统同步训练中GPU资源等待、训练吞吐不足的问题,并支持更长周期的持续训练。在此基础上,百灵将此前在Ring-1T中验证过的“棒冰算法”引入异步RL训练,解决训练不稳定问题。

目前,该模型权重文件同步上线Hugging Face、ModelScope平台,并开放体验通道。

开源地址:

Hugging Face:https://huggingface.co/inclusionAI/Ring-2.6-1T

ModelScope:https://modelscope.cn/models/inclusionAI/Ring-2.6-1T

体验地址:

Ling Studio:https://ling.tbox.cn/chat

一、能开发Web工具、做财务分析,还能开发3D游戏

在OpenRouter限时一周免费的API体验期间,已有不少开发者分享了对Ring-2.6-1T的真实调用反馈。

开发者关注到该模型在真实任务中的规划与执行能力:从会议纪要整理、内容计划生成,到React管理后台重构、复杂状态处理、代码生成和Three.js交互页面开发,Ring-2.6-1T能够主动拆解任务、规划步骤,并根据上下文持续推进。

在5月9日模型发布之时,智东西第一时间对其进行了体验:蚂蚁万亿参数思考模型来了!实测AIME真题难不倒,会写爽文、规划出行

今天,百灵团队放出了7个落地实操案例:

在Pi Coding Agent中,Ring-2.6-1T可以搜索互联网上的Web设计风格,并生成大量符合不同风格的交互式介绍。

(视频)

在OpenCode中,用户可以使用Ring-2.6-1T,在真实项目仓库中定位并修复一系列样式适配相关的bug,并产出相关文档。

(视频)

此外,在Pi Coding Agent,用户还可以让Ring-2.6-1T检索典型的3D框架和游戏场景,并生成这些场景和游戏。

(视频)

在Agentic方面,Ring-2.6-1T可以生成用于提升其他任务效能的Web工具,并使用Agent Skill优化这类工具的表现。

(视频)

在Kilo Code中,用户还可以用Ring-2.6-1T 编写脚本,综合运营macos的OCR能力、脚本执行和模型推理能力,全自动分析家庭财务账单,从发票图片到可交互分析演示。

(视频)

在深度研究场景中,Ring-2.6-1T可以通过Agent Skill编写深度研究Agentic Workflow。模型可以严格遵循通过Skill文档定义的Workflow,研究上百个来源,综述成为一份风险调研和投资相关的建议书。

(视频)

此外,Ring-2.6-1T还能自行开发个性化学习助手,检索和规划学习内容、知识图结构,并根据用户反馈自行调整介绍难度和方式。

(视频)

二、异步训练+棒冰算法,提高GPU利用率

传统同步RL训练中,策略生成(rollout)与梯度更新紧耦合,容易导致以下问题:

1、GPU等待:GPU资源利用率低,大量算力浪费在等待同步上;

2、训练吞吐不足:训练周期被拉长,迭代速度受限;

3、长周期训练不稳定:长周期训练中容易出现策略崩溃或奖励信号退化。

Ring-2.6-1T采用异步(Async)强化学习训练架构,将策略采样与参数更新解耦为独立流水线。由此,采样与更新并行执行,GPU利用率与训练效率均有所提升。并且,该训练架构适配大规模、长时间的持续训练,可以避免同步瓶颈导致的训练中断。

在此基础上,百灵团队还将推理大模型Ring-1T中的棒冰算法应用到异步RL训练中,解决训练不稳定问题。

结语:用更少token完成任务,百灵追求真实生产环境使用

近一个月内,百灵迭代发布并开源了多款模型,覆盖Ling语言模型和Ring推理模型。

此前,Ling-2.6-flash的匿名测试版本“Elephant Alpha”上线OpenRouter后,连续多日位列Trending 榜首,日均tokens调用量达到100B级别。

虽然模型尺寸不同、能力侧重也不同,其系列模型都在强调用更少的token完成高质量的任务输出。相较于追求更大的参数规模或更高的单点分数,百灵更强调“真实生产环境使用”。