智东西(公众号:zhidxcom)
作者 | 江宇
编辑 | 心缘

姚顺雨第一场“大考”交卷!

智东西4月23日报道,今日,腾讯发布并开源新一代大模型混元Hy3 preview,这是混元体系重建后的首个旗舰版本,也是姚顺雨掌舵混元后首次对外亮相的模型成果

今天,姚顺雨在DeepSeek V4前交卷了

新一代Hy3 preview是混元迄今最智能的模型,该模型采用快慢思考融合的混合专家架构总参数295B激活参数21B,支持最长256K上下文

从测评结果来看,Hy3 preview在复杂推理、指令遵循、代码与智能体能力等关键维度实现整体提升。在复杂推理任务中,其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench达到84.3分,整体表现已超过GLM-5、Kimi-K2.5,接近Gemini 3.1 Pro与GPT-5.4,并在清华求真书院数学博士资格考试中取得88.4分的国内最高成绩

在代码与搜索能力上,其在SWE-Bench Verified达到74.4%,已逼近GLM-5与Kimi-K2.5,在Terminal-Bench 2.0、BrowseComp、WideSearch等基准中也进入第一梯队但与Claude Opus-4.6等顶级闭源模型仍有差距

在ClawEval、WildClawBench等Agent评测中,Hy3 preview的综合执行能力明显提升。在涵盖16项基准的综合评测中,其平均得分约56分,显著高于上一代Hy2(约35分),并进入当前主流Agent模型的竞争区。

目前,Hy3 preview已率先接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ等多条核心产品线。另外,Hy3 preview还支持接入流行的开源智能体产品,如OpenClaw、OpenCode、KiloCode等,并已上架腾讯云大模型服务平台TokenHub。

今天,姚顺雨在DeepSeek V4前交卷了

在推理效率与成本层面,其首token延迟降低54%、端到端时长下降47%,整体推理效率提升40%;API价格进一步下探至输入最低1.2元/百万tokens、输出最低4元/百万tokens,并提供最低28元/月的Token套餐,主打一个“高性价比”。

而近期,国内外大模型赛道可谓是“动作频频”。

上周五,Anthropic发布了新一代旗舰模型Claude Opus 4.7;4月20日,阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview;4月21日,Kimi正式发布并开源旗舰模型K2.6;4月23日,小米MiMo大模型家族一口气官宣4款新模型,其中旗舰推理模型MiMo-V2.5也开启公测。

而行业最期待的“开源猛兽” DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体“上桌”,或意味着大模型格局的洗牌时刻即将到来。

面对如此激烈的神仙打架局面,定位“全面实用性”的Hy3 preview究竟具备怎样的真实战斗力?我们第一时间对其进行了实测。

开源地址:https://github.com/Tencent-Hunyuan/Hy3-preview

一、挑战复杂SVG与互动HTML,代码与逻辑能力一手实测

为了全面验证其能力,我们从逻辑推理、前端代码生成以及多模态表现等维度,对Hy3 preview进行了实测。

首先,我们抛出了两个经典的“陷阱题”

提示词:我要去洗车,洗车的地方离家就100米,我是开车去呢,还是走着去呢?

今天,姚顺雨在DeepSeek V4前交卷了

提示词:父亲和母亲可以结婚吗?

今天,姚顺雨在DeepSeek V4前交卷了

实测结果来看,Hy3 preview不负众望,成功完成了测试并准确绕过了文字陷阱。对于洗车问题,模型还幽默地补充了“代驾取车”的特殊情况。

在代码生成维度,我们首先选择了一个高难度的SVG绘制任务

提示词:生成一个Xbox 360控制器的SVG代码。

今天,姚顺雨在DeepSeek V4前交卷了

Xbox 360控制器不仅具有复杂的人体工学非对称曲线,还包含了丰富的摇杆与按键布局。这能极具针对性地考验大模型在没有视觉反馈的情况下,对二维空间坐标、图层叠加关系及几何数学计算的精准控制能力。

从实测结果来看,Hy3 preview在首次生成时遭遇了失败,虽然系统很快进行了重新生成,但最终的视觉效果并不理想。摇杆、按键等核心组件出现了明显的坐标错位

接下来,我们进一步测试了其生成带有交互逻辑的复杂HTML代码的能力。

提示词:用一个HTML代码块编写一个3D精灵球,它应该是可交互的,并且在打开时会有随机的宝可梦从里面出来。

今天,姚顺雨在DeepSeek V4前交卷了

实测发现,Hy3 preview输出的精灵球并没有达到预期的3D视觉效果,整体呈现依然比较粗糙。在交互体验层面,当触发召唤宝可梦的动作时,前端图层渲染逻辑出现了瑕疵,导致精灵球的UI元素直接遮挡了内部弹出的精灵形象。

最后一个体验案例是创建一个像素风格的前端页面

提示词:创建一个骑自行车的鹈鹕的3D像素艺术作品。尽可能将场景刻画得非常细致,注意主体模型上的每一个小细节,同时也要考虑周围环境的细节。在一个HTML代码块中完成制作,将代码写得足够优秀,以展示你的水平超越其他作品。我赋予你完全的创作自由,尽情发挥。

今天,姚顺雨在DeepSeek V4前交卷了

在这一案例中,Hy3 preview在静态结构的理解上表现尚可,鹈鹕的身体结构与自行车形态也相对完整。但遗憾的是,代码生成的画面中鹈鹕并没有如预期般呈现出动态骑行效果,且在细节刻画上缺失了自行车链条这一部件。

总体而言,Hy3 preview在代码框架构建和基本意图理解上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。

除了图形与交互测试,我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型,让它生成财报分析报告

模型能够准确提取核心财务数据,并呈现三年的同比变化趋势。同时,按年报披露的业务分部,生成收入结构对比图和业务板块占比变化图,整体分析报告清晰可读,数据整合能力令人印象深刻

今天,姚顺雨在DeepSeek V4前交卷了

总体而言,Hy3 preview在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时,仍需持续进化与打磨。

二、多项核心基准跻身第一梯队,Agent能力逼近主流旗舰模型

从测评表现来看,Hy3 preview在多个关键能力维度上进入第一梯队。

长上下文与指令遵循为例,在自建的CL-bench与CL-bench Life评测中,其得分分别达到22.8和15.7,明显高于GLM-5、Kimi-K2.5等同类模型,但与GPT-5.4级别模型相比仍存在差距,整体处于开源阵营前列位置。

今天,姚顺雨在DeepSeek V4前交卷了

复杂推理能力上,Hy3 preview在FrontierScience-Olympiad中取得70.0分,高于GLM-5和Kimi-K2.5,接近Gemini 3.1 Pro与GPT-5.4。

在IMO Answer Bench上达到84.3分,超过Kimi-K2.5和GLM-5,但仍低于Gemini 3.1 Pro与GPT-5.4。

在清华求真书院数学博士资格考试中,其得分为88.4,显著高于Kimi-K2.5和GLM-5,但与顶级闭源模型仍有差距;在CHSBO 2025生物竞赛中,其87.8的表现同样领先多数开源模型,接近GPT-5.4的水平。

今天,姚顺雨在DeepSeek V4前交卷了

代码与Agent能力是其提升最明显的方向

后端工程任务集Hy-Backend上,Hy3 preview得分达到54.7,超过GLM-5和Kimi-K2.5;在更贴近用户交互的Hy-Vibe评测中,其表现同样领先Kimi-K2.5;在高难度软件工程任务Hy-SWE Max上,Hy3 preview达到30,明显高于Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6仍存在差距。

今天,姚顺雨在DeepSeek V4前交卷了

这类内部评测更强调“真实开发环境中的完成能力”,相比标准化榜单,更能反映模型在复杂工程任务中的实际可用性。

在SWE-Bench Verified上,Hy3 preview达到74.4%,已经逼近GLM-5和Kimi-K2.5,但与Claude Opus-4.6仍有差距;在Terminal-Bench 2.0上,其54.4%的成绩超过GLM-4.7等模型,进入第一梯队。

搜索与信息整合能力上,Hy3 preview在BrowseComp上达到67.1%,接近GLM-5与Kimi-K2.5;在WideSearch上取得70.2%,超过GLM-5,但仍低于Claude Opus-4.6。

今天,姚顺雨在DeepSeek V4前交卷了

这类能力直接决定模型在开放环境中的“找信息+做判断”能力,是Agent落地的关键基础。

进一步看整体Agent能力,在涵盖16项基准的综合评测中,Hy3 preview以约56分的综合得分,显著高于Hy2(约35分),并与GLM-4.7、DeepSeek-V3.2等模型拉开差距,接近GLM-5与Kimi-K2.5所在区间。

今天,姚顺雨在DeepSeek V4前交卷了

更细分的Agent专项评测中,Hy3 preview也呈现出类似趋势。在WildClawBench(text-only)中,其得分为45.3,高于Kimi-K2.5、接近GLM-5;在ClawEval评测中达到55.0,超过Kimi-K2.5、接近GLM-5,但与Claude Opus-4.6同样存在差距。

今天,姚顺雨在DeepSeek V4前交卷了

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性,直接对应Agent在真实环境中的执行能力。

在参数规模仅295B的前提下,这一表现也能看出其追求“性价比最优”,成为当前少数在成本与能力之间取得平衡的模型之一。

三、推理效率提升40%,输入1.2元/百万tokens起,256K长上下文成本压低

在能力之外,Hy3 preview此次更直接的变化体现在推理效率与成本结构上。

得益于模型架构与推理框架的深度协同,以及算子优化与量化策略的整体调整,其整体推理效率提升约40%,将单位调用成本进一步压缩。

从实际定价来看,在0-16K上下文范围内,Hy3 preview输入价格最低为1.2元/百万tokens,命中缓存后可降至0.4元,输出价格为4元。

在更长上下文(最高256K)场景下,Hy3 preview输入价格逐步提升至2元/百万tokens,输出价格为8元。

今天,姚顺雨在DeepSeek V4前交卷了

这意味着,在长文本、复杂Agent任务中,其成本仍处于可控范围。

除了按量计费,腾讯云还推出了面向开发者的Token套餐方案,将成本进一步前置与打包。以个人版为例,Lite套餐月费28元,对应约3500万tokens额度,折合单价约0.8元/百万tokens;Standard、Pro、Max套餐则分别提供100M、320M、650M tokens,对应单价逐步下降至0.72元/百万tokens

今天,姚顺雨在DeepSeek V4前交卷了

这一梯度设计,对更高频、更长链路的调用场景更加友好,适用于需要持续运行的Agent应用。

结语:混元重建后的第一步,把重心放回真实场景

从某种意义上看,Hy3 preview是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着“更大参数”的路径走下去,而是选择以295B的规模,注重打磨推理、代码、Agent等能力。

这一方向也对应姚顺雨提出的“AI下半场”判断——模型的价值,不在榜单,而在复杂场景中的可用性。从目前的落地情况来看,无论是元宝、WorkBuddy,还是QQ助手与AI客服,这一版本已经开始在腾讯内部多条业务线上持续“跑起来”,并通过实际反馈反向推动模型迭代。

放在更大的时间线上看,Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。