今天，姚顺雨在DeepSeek V4前交卷了

智东西（公众号：zhidxcom）
作者 | 江宇
编辑 | 心缘

姚顺雨第一场“大考”交卷！

智东西4月23日报道，今日，腾讯发布并开源新一代大模型混元Hy3 preview，这是混元体系重建后的首个旗舰版本，也是姚顺雨掌舵混元后首次对外亮相的模型成果。

今天，姚顺雨在DeepSeek V4前交卷了

新一代Hy3 preview是混元迄今最智能的模型，该模型采用快慢思考融合的混合专家架构，总参数295B，激活参数21B，支持最长256K上下文。

从测评结果来看，Hy3 preview在复杂推理、指令遵循、代码与智能体能力等关键维度实现整体提升。在复杂推理任务中，其在FrontierScience-Olympiad拿下70.0分、IMO Answer Bench达到84.3分，整体表现已超过GLM-5、Kimi-K2.5，接近Gemini 3.1 Pro与GPT-5.4，并在清华求真书院数学博士资格考试中取得88.4分的国内最高成绩。

在代码与搜索能力上，其在SWE-Bench Verified达到74.4%，已逼近GLM-5与Kimi-K2.5，在Terminal-Bench 2.0、BrowseComp、WideSearch等基准中也进入第一梯队，但与Claude Opus-4.6等顶级闭源模型仍有差距。

在ClawEval、WildClawBench等Agent评测中，Hy3 preview的综合执行能力明显提升。在涵盖16项基准的综合评测中，其平均得分约56分，显著高于上一代Hy2（约35分），并进入当前主流Agent模型的竞争区。

目前，Hy3 preview已率先接入腾讯云、元宝、ima、CodeBuddy、WorkBuddy、QQ等多条核心产品线。另外，Hy3 preview还支持接入流行的开源智能体产品，如OpenClaw、OpenCode、KiloCode等，并已上架腾讯云大模型服务平台TokenHub。

今天，姚顺雨在DeepSeek V4前交卷了

在推理效率与成本层面，其首token延迟降低54%、端到端时长下降47%，整体推理效率提升40%；API价格进一步下探至输入最低1.2元/百万tokens、输出最低4元/百万tokens，并提供最低28元/月的Token套餐，主打一个“高性价比”。

而近期，国内外大模型赛道可谓是“动作频频”。

上周五，Anthropic发布了新一代旗舰模型Claude Opus 4.7；4月20日，阿里发布了其下一代旗舰模型的早期预览版Qwen3.6-Max-Preview；4月21日，Kimi正式发布并开源旗舰模型K2.6；4月23日，小米MiMo大模型家族一口气官宣4款新模型，其中旗舰推理模型MiMo-V2.5也开启公测。

而行业最期待的“开源猛兽” DeepSeek V4也有望在本周内降临。这一波国内外旗舰模型的集体“上桌”，或意味着大模型格局的洗牌时刻即将到来。

面对如此激烈的神仙打架局面，定位“全面实用性”的Hy3 preview究竟具备怎样的真实战斗力？我们第一时间对其进行了实测。

开源地址：https://github.com/Tencent-Hunyuan/Hy3-preview

一、挑战复杂SVG与互动HTML，代码与逻辑能力一手实测

为了全面验证其能力，我们从逻辑推理、前端代码生成以及多模态表现等维度，对Hy3 preview进行了实测。

首先，我们抛出了两个经典的“陷阱题”。

提示词：我要去洗车，洗车的地方离家就100米，我是开车去呢，还是走着去呢？

今天，姚顺雨在DeepSeek V4前交卷了

提示词：父亲和母亲可以结婚吗？

今天，姚顺雨在DeepSeek V4前交卷了

实测结果来看，Hy3 preview不负众望，成功完成了测试并准确绕过了文字陷阱。对于洗车问题，模型还幽默地补充了“代驾取车”的特殊情况。

在代码生成维度，我们首先选择了一个高难度的SVG绘制任务。

提示词：生成一个Xbox 360控制器的SVG代码。

今天，姚顺雨在DeepSeek V4前交卷了

Xbox 360控制器不仅具有复杂的人体工学非对称曲线，还包含了丰富的摇杆与按键布局。这能极具针对性地考验大模型在没有视觉反馈的情况下，对二维空间坐标、图层叠加关系及几何数学计算的精准控制能力。

从实测结果来看，Hy3 preview在首次生成时遭遇了失败，虽然系统很快进行了重新生成，但最终的视觉效果并不理想。摇杆、按键等核心组件出现了明显的坐标错位。

接下来，我们进一步测试了其生成带有交互逻辑的复杂HTML代码的能力。

提示词：用一个HTML代码块编写一个3D精灵球，它应该是可交互的，并且在打开时会有随机的宝可梦从里面出来。

今天，姚顺雨在DeepSeek V4前交卷了

实测发现，Hy3 preview输出的精灵球并没有达到预期的3D视觉效果，整体呈现依然比较粗糙。在交互体验层面，当触发召唤宝可梦的动作时，前端图层渲染逻辑出现了瑕疵，导致精灵球的UI元素直接遮挡了内部弹出的精灵形象。

最后一个体验案例是创建一个像素风格的前端页面。

提示词：创建一个骑自行车的鹈鹕的3D像素艺术作品。尽可能将场景刻画得非常细致，注意主体模型上的每一个小细节，同时也要考虑周围环境的细节。在一个HTML代码块中完成制作，将代码写得足够优秀，以展示你的水平超越其他作品。我赋予你完全的创作自由，尽情发挥。

今天，姚顺雨在DeepSeek V4前交卷了

在这一案例中，Hy3 preview在静态结构的理解上表现尚可，鹈鹕的身体结构与自行车形态也相对完整。但遗憾的是，代码生成的画面中鹈鹕并没有如预期般呈现出动态骑行效果，且在细节刻画上缺失了自行车链条这一部件。

总体而言，Hy3 preview在代码框架构建和基本意图理解上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时，仍需持续进化与打磨。

除了图形与交互测试，我们还验证了Hy3 preview在财务分析上的表现。我将腾讯2023、2024、2025年的财报输入模型，让它生成财报分析报告。

模型能够准确提取核心财务数据，并呈现三年的同比变化趋势。同时，按年报披露的业务分部，生成收入结构对比图和业务板块占比变化图，整体分析报告清晰可读，数据整合能力令人印象深刻。

今天，姚顺雨在DeepSeek V4前交卷了

总体而言，Hy3 preview在代码框架构建、基本意图理解及数据分析上展现出了不错的潜力。但在涉及复杂空间坐标系、前端深度交互渲染时，仍需持续进化与打磨。

二、多项核心基准跻身第一梯队，Agent能力逼近主流旗舰模型

从测评表现来看，Hy3 preview在多个关键能力维度上进入第一梯队。

以长上下文与指令遵循为例，在自建的CL-bench与CL-bench Life评测中，其得分分别达到22.8和15.7，明显高于GLM-5、Kimi-K2.5等同类模型，但与GPT-5.4级别模型相比仍存在差距，整体处于开源阵营前列位置。

今天，姚顺雨在DeepSeek V4前交卷了

在复杂推理能力上，Hy3 preview在FrontierScience-Olympiad中取得70.0分，高于GLM-5和Kimi-K2.5，接近Gemini 3.1 Pro与GPT-5.4。

在IMO Answer Bench上达到84.3分，超过Kimi-K2.5和GLM-5，但仍低于Gemini 3.1 Pro与GPT-5.4。

在清华求真书院数学博士资格考试中，其得分为88.4，显著高于Kimi-K2.5和GLM-5，但与顶级闭源模型仍有差距；在CHSBO 2025生物竞赛中，其87.8的表现同样领先多数开源模型，接近GPT-5.4的水平。

今天，姚顺雨在DeepSeek V4前交卷了

代码与Agent能力是其提升最明显的方向。

在后端工程任务集Hy-Backend上，Hy3 preview得分达到54.7，超过GLM-5和Kimi-K2.5；在更贴近用户交互的Hy-Vibe评测中，其表现同样领先Kimi-K2.5；在高难度软件工程任务Hy-SWE Max上，Hy3 preview达到30，明显高于Kimi-K2.5、接近GLM-5，但与Claude Opus-4.6仍存在差距。

今天，姚顺雨在DeepSeek V4前交卷了

这类内部评测更强调“真实开发环境中的完成能力”，相比标准化榜单，更能反映模型在复杂工程任务中的实际可用性。

在SWE-Bench Verified上，Hy3 preview达到74.4%，已经逼近GLM-5和Kimi-K2.5，但与Claude Opus-4.6仍有差距；在Terminal-Bench 2.0上，其54.4%的成绩超过GLM-4.7等模型，进入第一梯队。

在搜索与信息整合能力上，Hy3 preview在BrowseComp上达到67.1%，接近GLM-5与Kimi-K2.5；在WideSearch上取得70.2%，超过GLM-5，但仍低于Claude Opus-4.6。

今天，姚顺雨在DeepSeek V4前交卷了

这类能力直接决定模型在开放环境中的“找信息+做判断”能力，是Agent落地的关键基础。

进一步看整体Agent能力，在涵盖16项基准的综合评测中，Hy3 preview以约56分的综合得分，显著高于Hy2（约35分），并与GLM-4.7、DeepSeek-V3.2等模型拉开差距，接近GLM-5与Kimi-K2.5所在区间。

今天，姚顺雨在DeepSeek V4前交卷了

在更细分的Agent专项评测中，Hy3 preview也呈现出类似趋势。在WildClawBench（text-only）中，其得分为45.3，高于Kimi-K2.5、接近GLM-5；在ClawEval评测中达到55.0，超过Kimi-K2.5、接近GLM-5，但与Claude Opus-4.6同样存在差距。

今天，姚顺雨在DeepSeek V4前交卷了

这类评测更关注模型在多步调用、工具协同与任务拆解中的稳定性，直接对应Agent在真实环境中的执行能力。

在参数规模仅295B的前提下，这一表现也能看出其追求“性价比最优”，成为当前少数在成本与能力之间取得平衡的模型之一。

三、推理效率提升40%，输入1.2元/百万tokens起，256K长上下文成本压低

在能力之外，Hy3 preview此次更直接的变化体现在推理效率与成本结构上。

得益于模型架构与推理框架的深度协同，以及算子优化与量化策略的整体调整，其整体推理效率提升约40%，将单位调用成本进一步压缩。

从实际定价来看，在0-16K上下文范围内，Hy3 preview输入价格最低为1.2元/百万tokens，命中缓存后可降至0.4元，输出价格为4元。

在更长上下文（最高256K）场景下，Hy3 preview输入价格逐步提升至2元/百万tokens，输出价格为8元。

今天，姚顺雨在DeepSeek V4前交卷了

这意味着，在长文本、复杂Agent任务中，其成本仍处于可控范围。

除了按量计费，腾讯云还推出了面向开发者的Token套餐方案，将成本进一步前置与打包。以个人版为例，Lite套餐月费28元，对应约3500万tokens额度，折合单价约0.8元/百万tokens；Standard、Pro、Max套餐则分别提供100M、320M、650M tokens，对应单价逐步下降至0.72元/百万tokens。

今天，姚顺雨在DeepSeek V4前交卷了

这一梯度设计，对更高频、更长链路的调用场景更加友好，适用于需要持续运行的Agent应用。

结语：混元重建后的第一步，把重心放回真实场景

从某种意义上看，Hy3 preview是腾讯混元在团队、架构与基础设施全面重建之后的一个起点版本。它没有继续沿着“更大参数”的路径走下去，而是选择以295B的规模，注重打磨推理、代码、Agent等能力。

这一方向也对应姚顺雨提出的“AI下半场”判断——模型的价值，不在榜单，而在复杂场景中的可用性。从目前的落地情况来看，无论是元宝、WorkBuddy，还是QQ助手与AI客服，这一版本已经开始在腾讯内部多条业务线上持续“跑起来”，并通过实际反馈反向推动模型迭代。

放在更大的时间线上看，Hy3 preview或许是腾讯在这一轮大模型竞争中重新找到节奏的信号。

一、挑战复杂SVG与互动HTML，代码与逻辑能力一手实测

二、多项核心基准跻身第一梯队，Agent能力逼近主流旗舰模型

三、推理效率提升40%，输入1.2元/百万tokens起，256K长上下文成本压低

结语：混元重建后的第一步，把重心放回真实场景

相关推荐