智东西(公众号:zhidxcom)
作者 | 云鹏
编辑 | 心缘
智东西3月6日报道,今天,高通正式发布了《通过NPU和异构计算开启终端侧生成式AI》技术白皮书中文版,并于今天上午的AI技术沟通会中对白皮书中的相关技术和规划进行了深入解读。高通技术公司产品管理高级副总裁Ziad Asghar在会上回答了业内关心的焦点问题。
如今,生成式AI变革已经到来。在高通看来,随着生成式AI应用愈发多样化、垂直领域的计算需求也在快速增长,产业需要专门为AI定制设计新的计算架构。
在他们看来,这个新的计算架构需要一个面向生成式AI设计的神经网络处理器,也就是我们常说的NPU,同时要利用CPU、GPU在内的异构处理器组合,进而实现更好的性能、能效、续航。
接下来,高通分别对他们的NPU和异构计算两大优势技术进行了深入解读。
一、专为低功耗加速AI推理而设计,高通NPU的核心差异化优势是什么?
NPU是专门为低功耗加速AI推理而设计的一种处理,也是高通在芯片设计领域的强项之一,目前市面上的高通旗舰智能手机芯片中基本上都内置了AI算力较高的NPU模块。
高通高管提到,NPU的架构会随着新AI算法、模型和用例的发展不断演进。
随着AI技术持续快速演进,计算平台必须在性能、功耗、效率、可编程性和面积之间进行权衡取舍。在高通看来,一个专用的定制化设计NPU可以保持与AI行业方向一致。
高通重点解读了他们在NPU方面的技术优势。我们都非常熟悉的Hexagon NPU就是面向兼顾低功耗和稳定性的高性能AI推理设计的,Ziad Asghar提到,高通NPU的核心差异化优势在于系统级解决方案、定制设计和快速创新。
具体来说,高通的系统级解决方案会考量每个处理器的架构、SoC系统架构和软件基础设施,从而优化整体AI解决方案。
更进一步来看,通过定制设计NPU并控制指令集架构,高通可以快速进行设计演进和扩展,以解决瓶颈问题并优化性能。
二、异构计算成为AI新时代必需品
有了NPU还不够,做好异构计算同样重要。异构计算可以发挥每种处理器的优势,比如NPU擅长标量、向量和张量数学运算,更适用于核心AI工作负载。
高通AI引擎就是高通的异构计算架构,目前各类骁龙移动芯片中几乎都搭载了高通AI引擎。高通AI引擎包括前文提到的Hexagon NPU,以及高通Adreno GPU、Kryo或Oryon CPU、传感器中枢和内存子系统。
新一代Hexagon NPU据称性能提升了98%、能效提升了40%,此外,微架构升级、增强的微切片推理、更低的内存带宽占用,以及专用电源传输轨道,都是其关键优势特性。
Adreno GPU支持32位浮点、16位浮点和8位整数运算。第三代骁龙8中的Adreno GPU有25%的能效提升,根据高通官方数据,基于Adreno GPU,Llama 2-7B每秒可生成超过13个token。
CPU方面,在骁龙X Elite计算平台中,高通Oryon CPU据称可以实现两倍于竞品的CPU性能,达到竞品峰值性能所需要的功耗仅为竞品的三分之一。
不同的处理器协同工作,从而实现端侧AI的高效运行。
目前,搭载高通AI引擎的产品出货量已超过20亿,包括智能手机、XR、平板电脑、PC、安防摄像头、机器人和汽车等领域。
结语:高通软硬件生态齐头并进,瞄准端侧生成式AI规模扩展
基于高通的NPU和异构计算技术,利用高通AI软件栈(Qualcomm AI Stack),开发者现在可以在高通硬件上更快捷高效地创建、优化和部署AI应用。
目前,高通正通过定制芯片设计、全栈AI优化和生态系统赋能的结合,推动端侧生成式AI的开发和应用。对于高通来说,终端侧的生成式AI规模化扩展,已经成为他们发力的核心方向之一。