芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
随着各类智能体应用需求爆发,本地工作站成为比云端部署速度更快、成本更低、灵活高效、安全可控的选择。
对于云边端如何协同支撑算力需求,英特尔提出了企业AI三层部署架构:
(1)中央级AI服务器集群:提供规模化算力底座,支撑多智能体高效协同与全尺寸大模型推理规模化推理。
(2)个人级AI PC:支撑端侧小模型及轻量化智能体运行。
(3)部门级/边缘域AI工作站/服务器:承载靠近业务一线的智能体应用与大模型推理,兼顾性能、成本与易用性。
IDC数据显示,AI驱动工作站呈现端侧AI算力快速增强、多元专业场景全面适配、端云协同高效联动、本地数据安全持续强化四大趋势,预计2026年中国AI工作站出货量同比增长65.2%,占整体工作站市场51.7%。
工作站如何既支撑科学计算、金融分析、影像渲染等传统重负载工作流运转,又能满足大模型推理、智能体部署、内容创作及专业图形处理的需求?
近日,英特尔给出了它的答案——面向新一代AI工作站的至强600工作站处理器和锐炫Pro B70、B65 GPU显卡。

现场演示了基于1颗至强698X处理器,接入云端大模型,容器化部署80只“龙虾”智能体,帮助企业实现本地高密度智能体的中心化托管。这些“龙虾”能并行运行多轮问答任务,共同完成一个复杂的智能体任务。
如果在至强698X的基础上,额外引入4张锐炫Pro B70显卡,容器化部署高密度智能体及拥有800亿参数的本地大模型,可以让24只“龙虾”智能体通过本地“虾脑”并行监控24只个股,每隔10秒完成一轮迭代,这样只需小时级别的时间,就能分析完所有个股。
至此,英特尔锐炫Pro B系列已集齐4款产品:半高单槽的B50(16GB)、主力B60(24GB)、进阶B65(32GB/20 Xe核心)和旗舰B70(32GB/32 Xe核心)。

英特尔市场营销集团副总裁、中国区总经理郭威谈道,AI落地路径正走向多元,不再局限于云端服务等单一模式,大量高算力、重负载的AI生产力工作发生在企业部门的一线场景,高性能工作站正是这类用户的理想平台,让AI从概念走向桌面生产力。
英特尔中国区技术部总经理高宇分享说,工作站市场是一个持续成长的蓝海,英特尔看到近两年工作站市场呈现爆发式成长的势头。至强600HR和锐炫Pro B70共同为新一代AI工作站构筑了更完整、更稳固的底座。

▲英特尔中国区技术部总经理高宇展示新品
一、至强600:性能、扩展、AI、管理四管齐下
通过至强600系列,英特尔将数据中心级至强6家族的架构能力完整下放至工作站平台。
英特尔至强600工作站处理器采用模块化Chiplet架构,两个IO Chiplet和多个计算Die组成一个完整CPU,主要特点包括:

(1)性能:最高配备86个性能核,最高支持4TB内存,相比上一代旗舰处理器,多线程性能较上代提升高达61%,单线程性能提升9%,睿频最高可达4.8GHz。

(2)扩展:支持128条PCIe 5.0通道,配合W890芯片组,提供丰富灵活的扩展能力;8通道DDR5内存,支持6400MT/s DDR5 RDIMM、8000MT/s MRDIMM内存;首次将CXL 2.0服务器技术引入工作站,可快扩CXL内存池,实现更高效的KV cache的off loading,加速AI推理。
(3)AI:每核内置英特尔AMX引擎,新增FP16原生支持,AI与机器学习性能提升最高达17%,图像降噪等典型影像处理场景速度提升高达4至5倍,可有效降低企业本地AI部署的门槛与TCO。

(4)管理:依托英特尔vPro技术体系,支持多种管理特性、多密钥内存加密与一键恢复等企业级功能,适配塔式、机架式及边缘等多种部署形态,满足企业灵活运维的需求。

该平台还继承了英特尔高可用的基因,通过4大类48项RAS功能加固了平台的稳定性,为关键任务保驾护航。

据英特尔披露,对比上一代至强W3595X工作站,新一代至强698X工作站在运行中尺度气象研究和预测模型WRF时加速87%,运行AlphaFold 3蛋白质预测时加速44%,运行由英特尔开源的AI图像降噪库Open Image Denoise(OIDN)时加速400%。
“得益于AMX和AVX512指令集加持,以及英特尔提供的OpenVINO和OneAPI工具套件,可以实现CPU对AI的直接推理加速,再配合上这个平台可以直接支持8张PCIe 5.0 x16的GPU的能力,至强600平台是目前AI工作站的最佳选择。”高宇说。
他在会后的媒体采访期间透露,后续至强还将支持数据传输速率达到12800MT/s的MRDIMM,这对AI及HPC(高性能计算)工作负载都很重要。
英特尔中国区显卡和AI高级产品总监徐金平补充说,锐炫Pro B70的价格也很有竞争力,同时英特尔正持续加大对新模型、新生态的投入。
二、锐炫Pro B70:大显存、长窗口、高并发
英特尔锐炫Pro B70显卡基于第二代Xe2架构,配备32GB显存,AI算力峰值高达367TOPS,对图形渲染、通用并行计算与AI加速计算等专业工作负载都进行了专项优化。
锐炫Pro B65同样搭载32GB显存,提供197TOPS算力,价格更亲民,面向对显存敏感但算力需求适中的用户群。

锐炫Pro B70的架构设计有如下重点:
- 搭载32个Xe核心,每个Xe核心有8个向量处理核心(XVE)和8个矩阵计算核心(XMX),延续了Xe架构在通用并行计算上的能力,并对数据吞吐和执行效率做了提升。
- 32个光线追踪单元,通过物理引擎处理实时光追计算。
- 强大的视频编解码和后处理单元,对很多最新视频格式都实现了硬编硬解。
面向AI推理需求,锐炫Pro B70在AI推理场景中支持更大规模的AI模型与更长的上下文窗口,可在多用户并发场景下支持高吞吐量与快速响应。

面向多样化部署需求,该显卡支持SR-IOV虚拟化与50余家ISV软件认证,可灵活扩展多卡配置,配合完整的Linux软件栈(含vLLM、oneAPI、PyTorch)。
锐炫Pro B70运行11款专业GPU应用上的表现如下图所示,对比B60提升显著,并完成了针对这些专业软件的适配和认证,确保长期跑得稳、结果可信、功能完整且与实际工作流高度兼容。

现场演示了基于锐炫Pro B70的多项本地AI应用效果:
(1)文生图:一台本地笔记本连接到Demo区的一台4卡锐炫Pro B70工作站,在ComfyUI工作区上,仅用3.9秒,就生成了一张1024×1024的高清图片。单张锐炫Pro B70显卡仅需不到30秒,就能生成一张4K分辨率的高清图。
(2)图生图:基于单卡锐炫Pro B70,亦心科技AI闪绘应用能将手绘草图近乎实时地绘制成高清设计大作。
(3)图生视频:使用单张锐炫Pro B70,在本地运行Wan 2.2 I2V-18B FP8开源模型,92秒生成一段5秒480P视频。
(4)“龙虾”智能体:基于酷睿Ultra加单张锐炫Pro B70的个人龙虾工作站方案,运行本地Qwen 3.5-35B A3B量化模型,去模拟小说续写场景,可轻松支撑128K或256K满上下文推理。

知名车评人、旅行家韩路重点夸了锐炫Pro B70的视频编解码性能。对于重型视频节目,大概有10-20轨4K 60的素材并行,如果显卡解码能力不行,拖拽时会特别慢,使用锐炫Pro B70后提效显著,剪辑同事反馈说拖拽很流畅。
还有一些面向企业级应用场景的案例:
(1)多路视频会议:联想智能会议系统Lenovo SCH-900S搭载锐炫Pro B70,可实现20路多会议室并发接入与实时AI会议纪要的生成,显著提升沟通效率与执行落地速度。
(2)长上下文RAG解决方案:借助英特尔锐炫Pro B70多卡并发能力,飞致云面向企业级场景的长上下文RAG解决方案可支持LLM/VLM高效多卡并发推理。飞致云展示了基于MaxKB平台的测试数据,2卡锐炫Pro B70运行14B模型可支持24路并发,8卡运行32B模型可支持60路并发,且每路响应速度保持在15TPS及以上。

(3)电子病历智能体方案:东华医为在8卡B70服务器上部署电子病历智能体,病历辅助生成性能较B60提升至8倍,病历内涵质控提升67%,2-3台8卡B70可满足一家中等规模三甲医院的需求,可助力医疗机构提升诊疗质量和效率。
此外,英特尔与火山引擎共同打造了AgentSphere一体机联合方案。借助英特尔至强600与锐炫Pro B70,AgentSphere具备了更高并发、更低时延、更少抖动的多智能体协同能力,同时开箱即用的标准一体机方案降低了AI落地企业的使用门槛与维护成本,能够更便捷地帮助企业打造AI员工管理平台,提升生产效率。

针对工业界AI软件栈迭代速度快、软件复杂度高、性能优化繁琐等问题,英特尔采用了容器化交付全栈软件的方式,最大程度保证用户安装即可用。

英特尔会持续分阶段发布和更新组件中的升级包,对全新模型和全新kernel的第一时间支持。
结语:智能体需求爆发,工作站成企业级刚需平台
作为企业级智能体和大模型推理落地的必要平台之一,工作站凭借就近部署、灵活高效、高性价比、隐私安全、更加轻量的IT运维要求、服务器级别的性能稳定保证等优势,正成为AI算力基础设施中不可或缺的一层。
英特尔AI工作站的核心价值源于开放协同的产业生态。英特尔联合全体生态伙伴,打造从底层算力到行业场景的完整价值链路,既联动协同软件与模型合作伙伴,又与行业伙伴共同探索在金融、制造、科研、创意等领域的创新解决方案,以帮助各行各业切实应对大模型部署成本高、数据安全与响应效率等现实挑战,将技术创新转化为生产力。
在更宏观的市场层面,CPU缺货仍将持续。高宇坦言,受智能体需求爆发影响,内存需求与CPU需求都在上涨,CPU需求增速已超越业内几乎所有人原来的预判,预计要等大量扩产和需求下滑后才能缓解供需缺口。
在工作站形态方面,英特尔正推动液冷、超静音和小型化:单卡方案目标机箱做到8L以内、噪音35dB以下,双卡机箱做到14L以内、噪音40dB以下,4卡机箱做到35L以内。