1792TOPS！又一国内AI芯片发布，额定功耗600W

芯东西（公众号：aichip001）
作者 | ZeR0
编辑 | 漠影

芯东西6月30日消息，今日，杭州AI芯片公司中昊芯英发布新一代全自研高性能TPU AI芯片须臾，以及基于须臾芯片构建的软硬件一体化智算平台泰则2.0。

相比上一代，须臾与泰则2.0在底层架构、算力峰值、片上存储、集群互联、计算能效等方面均有提升。

单颗须臾芯片深度优化大模型专属张量计算逻辑，扩容寄存器与大容量片上缓存，核心性能参数实现提升：

单芯片混合精度浮点算力达896TFLOPS，性能是上一代刹那芯片的3倍；8-bit推理算力可达1792TOPS，适配海量token高并发推理场景；
单卡搭载的显存及芯片内部互联速率均有大幅提升，支持超长上下文，降低多轮对话的数据反复搬运开销；
单芯片额定功耗600W，相较于算力性能持平的传统算力芯片，功耗降低50%，天然适配绿色低碳智算中心建设；
依托多维张量计算单元与数据复用优化设计，须臾有效缓解深度学习领域经典存储墙难题，执行同等AI任务时，综合计算效能可达传统GPU架构数倍，在大模型计算、批量token生成场景优势尤为突出。

中昊芯英成立于2018年，是国内最早投身于TPU架构AI专用算力芯片研发的企业之一，在2023年成功流片了TPU AI芯片“刹那”并实现量产和产业化。

该公司产品已成功部署于由深圳联通、天津移动、太极股份、江西上饶等运营商、政府机构，以及科技企业建设的多个超大规模智算中心。

基于刹那三年规模化落地的实践经验，中昊芯英完成新一代芯片“须臾”的架构优化，针对性解决超大模型、长上下文、海量token交互场景下传统算力存在的访存延迟、能耗偏高、并行效率不足等痛点。

须臾延续中昊芯英全自研TPU技术路线，实现芯片IP核、专属指令集、底层算子加速库、整机系统软件完整自主研发，不依赖海外核心技术。

该公司核心技术完整覆盖芯片设计、电路开发、编译工具、模型适配全链条，可快速高效完成新模型和迭代模型的适配和部署，满足政务、金融、电网等关键行业的信息安全合规要求。

泰则2.0 AI高性能智算平台中标准的最小计算单元泰则2.0智算节点/单机由2路高性能CPU处理器与8片高性能TPU处理单元互联构建而成，从物理形态上形成1台通用的CPU服务器外接1台高性能TPU算力加速设备，算力达7.168P（混合精度），同等任务下整机能耗仅为传统GPU服务器的80%。

在集群部署层面，泰则2.0在构建超大规模算力资源池时，通过自研的低延迟高并行的片间通讯协议，单个超节点最高可实现2048片须臾芯片直联，能够承载万亿参数大模型分布式训练、多智能体协同运算、全平台海量token并发推理等重负载业务。

泰则2.0的单位算力建设成本仅为海外高端算力产品的60%。

该平台还配套了完整的可视化运营管理系统，集成BMC硬件远程管控、全链路硬件状态监控、故障短信/邮件预警、算力计费、用户权限、模型市场一体化功能，运维人员可实时查看芯片温度、功耗、资源使用率、系统日志等全维度信息，拥有开箱即用的运维体验。

其软件层面实现了全主流AI框架兼容，原生支持PyTorch、vLLM、SGLang等开发工具，训练场景适配 DeepSpeed、Megatron-LM分布式套件，已完成Qwen全系列、DeepSeek、GLM、MiniMax等数十款大语言、多模态模型深度适配，降低国产算力替换门槛。开发者无需大规模代码改造即可快速完成模型迁移。

相关推荐