手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

智东西(公众号:zhidxcom)
作者 | 云鹏
编辑 | 漠影

试想,拥有数十亿、上百亿参数的AI大模型直接在你的手机上运行,是一种怎样的体验?

注意,是完全本地化运行,只依赖手机本身的算力。听起来这似乎还有些遥远,但实际上,已经有安卓手机可以完全本地化运行Stable Diffusion这样的生成式AI应用了。

不久前,移动芯片巨头高通刚刚公开了一段演示视频,演示中,搭载骁龙芯片的手机可以直接运行参数规模超过10亿的Stable Diffusion,且只需要15秒左右就可以出图。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲搭载骁龙芯片的手机运行Stable Diffusion,15秒左右出图,来源:高通

从实际演示结果来看,其性能和精确度的确已经接近云端处理的水平。

可以说,火爆的生成式AI变革潮,已经真正开始落地我们最常见、最离不开的智能手机了,而我们每个人的生活,也必将受到生成式AI的深刻影响。

从ChatGPT到Stable Diffusion、Microsoft 365 Copilot,从文心一言到通义千问,OpenAI、微软、谷歌、百度、阿里等国内外各路科技巨头都在开发AI大模型以及生成式AI应用。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

AI正迎来大爆发时期,就像此前电视、互联网和智能手机的问世,而这种爆发对算力以及计算架构都提出了新的需求。

AI大模型动辄百亿、千亿的参数,让AI训练和推理的成本都显著提升,计算架构需要不断演进并满足生成式AI日益增长的处理和性能需求。

在这样的AI产业发展大趋势下,近期高通发布了名为《混合AI是AI的未来》的技术白皮书,在高通看来,AI处理必须分布在云端和终端进行,才能实现AI的规模化扩展并发挥其最大潜能,因此他们提出了“混合AI架构”的概念。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

智东西等少数业内媒体与高通产品管理高级副总裁兼AI负责人Ziad Asghar进行了近两个小时的深度对话,深入探讨了“混合AI”在未来生成式AI发展中将起到的关键作用,以及高通在这波生成式AI浪潮中,在硬件、软件、算法、生态等方面进行的深入布局。

毫无疑问,终端侧的生成式AI时代已经到来,而在未来端云结合的混合AI时代,能够提供全套解决方案的玩家必然会成为产业关注的焦点,而高通已然手握不少“秘密武器”,成为AI产业中的关键变量。

一、生成式AI浪潮如何催生出“混合AI架构”?

在深入交流中,不论是高通Ziad Asghar提出的观点,还是高通技术白皮书的表述,都表明高通对于混合AI的未来是坚信不移的,这种自信究竟从何而来?

实际上,虽然近来生成式AI发展迅速,但目前大部分应用都只能在云端运行,前不久ChatGPT推出了iOS版本,但该应用的任务处理仍然是基于云端的。面向更广阔的普通消费市场,科技巨头们要做的事还有很多。

当下生成式AI模型对计算基础设施提出了很高的要求,AI训练和AI推理一直受限于大模型的复杂度和庞大规模而部署在云端。

虽然AI大模型每年可能只需要训练几次,但模型的推理成本却会随着日活用户数量及其使用频率的增长而显著增加。云端推理的高成本,让生成式AI的规模化扩展陷入瓶颈。

在这样的大趋势下,混合AI架构无疑是突破这一瓶颈的很好尝试。

“混合”,就意味着云端要和手机、PC、XR头显、汽车这些终端设备协同工作,而不是单打独斗,混合AI架构会根据大模型和查询需求的复杂度,将任务负载以不同方式分配到云端和终端上。

这种混合AI架构能带来的优势是很明显的,比如在成本、能耗、性能、隐私、安全和个性化等方面,本地化处理的融入都可以带来很多加分项。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

成本的节省是最显而易见的,将一些任务处理从云端转移到边缘终端,当然可以减轻云基础设施的压力并减少开支。混合AI可以利用的是现在已经应用在每个消费者生活中,数十亿的具备AI能力的边缘终端设备,包括我们的智能手机、PC,其规模不容小觑。

并且,在边缘终端运行生成式AI模型的能耗也是要低于云端的。这对于当下各大科技巨头完成各自的可持续发展目标也非常关键。

当然,对于每一位实际用户来说,可靠性、性能和时延方面的改善会对AI体验有更直观的影响。因为在自己的设备上运行生成式AI,不会有大量排队等待和高时延,甚至在没有网络连接的情况下,我们也能正常运行生成式AI应用。

最后,我们的查询和个人信息也会被保留在终端上,AI还会根据我们本地存储的表情、喜好和个性进行定制,进行用户画像,随着时间推移进行学习和演进,从而提供更个性化的服务。这一切都是基于不牺牲隐私的前提下实现的。

整体来看,不论是生成式AI规模化发展本身对计算架构提出的要求,还是混合AI可以带来的诸多优势特性,混合AI的发展,已经成为看得见的未来。高通押宝的混合AI,已经成为后续AI产业发展的重要趋势之一。

二、背靠数十亿终端,从技术到生态赋能,高通让混合AI走入现实

既然认定了混合AI的未来,打造足够出色的混合AI架构就成为了高通的核心目标之一。真正实现终端和云端的高效配合,实现不同工作负载的合理分配,并不是一件容易的事。

根据高通技术白皮书中的实验数据,目前搭载高通芯片的终端产品,已经可以在终端侧实现比较多种的生成式AI功能,而这些功能背后的AI大模型参数规模在10亿到100亿之间。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲数量可观的生成式AI模型可从云端分流到终端上运行,来源:高通

正如前文所说,Stable Diffusion等参数超过10亿的模型已经能够在手机上运行,且性能和精确度达到与云端处理类似的水平。

面向未来更多生成式AI应用和功能,高通已经在AI相关硬件、软件、生态等方面储备了诸多产品和技术,对于混合AI架构,高通已经提前布局。

首先在硬件方面,芯片层的AI运算处理能力是必要条件,目前高通AI引擎是高通在硬件领域的杀手锏之一。

根据官方实验数据,搭载高通AI引擎的智能手机,其能效与竞品相比大约有2倍左右的优势,以更低功耗提供过硬的终端侧AI性能是高通AI引擎的一大强项。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲第二代骁龙8的AI能效与竞品相比较,来源:高通

具体来看,高通AI引擎采用了异构计算架构,其包括Hexagon处理器、Adreno GPU和Kryo CPU,这三个模块都对终端侧运行AI应用进行了针对性优化。

其中Hexagon处理器使用了专用的供电系统,可以按照工作负载适配功率,从而提升系统能效比。值得一提的是,Hexagon处理器支持微切片推理和INT4硬件加速,可以在AI处理方面实现更高性能、更低的能耗和内存占用。

目前生成式AI领域大量应用到Transformer模型,Hexagon处理器可以对Transformer进行加速,提升生成式AI中一些关键机制的推理速度,根据高通实验数据,在使用MobileBERT的特定用例中,AI性能可以提升4.35倍。

虽然在很多人的印象中,高通是一家移动芯片公司,但实际上高通在软件算法方面的积累不容小觑,针对生成式AI浪潮,高通在软件技术方面做了不少准备。

高通AI软件栈,可以说是高通所有相关AI软件产品的“集大成”方案,OEM厂商们和开发者都可以基于高通AI软件栈创建、优化和部署AI应用,从而充分利用高通AI引擎的性能。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲高通AI软件栈,来源:高通

同时,AI开发者只需要创建一次AI模型,就可以实现跨不同产品的部署。

此外,高通AI软件栈支持TensorFlow、PyTorch、ONNX和Keras等主流AI框架以及TensorFlowLite、TensorFlow Lite Micro和ONNX Runtime等runtime。

高通AI软件栈集成了推理软件开发包(SDK),比如面向Android、Linux和Windows不同版本的高通神经网络处理SDK,高通开发者库和服务也支持最新编程语言、虚拟平台和编译器。

值得一提的是,高通AI软件栈一直专注于AI模型效率研究,从而提升AI模型运行的能效和性能,这对于生成式AI的应用和扩展是至关重要的。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

高通通过量化、压缩、条件计算、神经网络架构搜索和编译,在不牺牲太多精度的前提下对AI模型进行了缩减。在量化方面,高通将FP32模型量化压缩到INT4模型,实现了64倍内存和计算能效提升。

在生成式AI领域,像常见的GPT、Bloom以及LLaMA这样基于Transformer的大语言模型通常会受到内存的限制,而在量化到8位或4位权重后,这些模型往往能够在运行效率方面获得比较明显的提升。

根据高通实验数据,借助量化感知训练以及更加深入的量化研究,不少生成式 AI 模型可以量化至INT4模型,与INT8相比,性能提升约为90%,能效提升在60%左右。

除了量化压缩,编译器也是高通AI软件栈中的核心组件之一,它的作用也是让AI模型高性能、低功耗的运行。

AI编译器将输入的神经网络转化为可以在目标硬件上运行的代码,同时针对时延、性能和功耗进行优化。

在硬件、软件技术和产品之外,高通在全球化规模以及生态建设方面的优势也成为其推动混合AI规模化扩展的关键动力。

目前搭载高通AI引擎产品出货量超过20亿个,根据市研机构Counterpoint数据统计,搭载骁龙和高通平台的已上市用户终端数量规模在数十亿台,并且每年有数亿新终端进入市场。

市研机构TechInsights预测,未来高通会以超过40%的市场份额保持AI智能手机处理器出货量第一,远超苹果公司25%的份额以及联发科24%的份额。

此外,搭载骁龙平台的已发布XR终端已经超过65款,其中Meta、PICO等头部厂商的旗舰产品均采用的是高通芯片。

可以看到,高通的AI能力已经深入数十亿边缘终端设备,形成跨智能手机、汽车、XR、PC、笔记本电脑以及企业级AI等现有市场和新兴领域的终端AI生态系统。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

凭借在软硬件技术实力、全球化规模和生态系统赋能方面的优势,高通正加速让混合AI成为现实。

三、深耕AI十五年,提前布局生成式AI,解密高通的技术底蕴

能够把握住生成式AI的浪潮,精准利用优势产品和技术切入赛道,对于每家科技公司来说都不是一件容易的事,对于高通来说同样如此。

正如技术的发展不是一蹴而就、灵光乍现,高通今天的成绩背后,是十余年在AI领域的深耕和积累,甚至在生成式AI领域,高通已提前多年进行了前瞻性探索。

从2007年高通骁龙平台搭载首个Hexagon处理器至今,高通深耕AI研发已超过15年。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲高通近15年来AI研究重要节点,来源:高通

2015年,骁龙820集成了首个专门面向移动平台的高通AI引擎,支持图像、音频和传感器的运算。三年后,骁龙855中的Hexagon处理器首次加入了张量加速器,其AI运算性能及能效比有了显著提升。

2019年,骁龙865开始扩展终端侧AI用例,包含AI图片、AI视频、AI语音和始终在线的传感器中枢。

实际上,多年来高通一直在推动终端侧AI技术的迭代,让感知、推理和行为等核心能力在终端上落地。

除了在终端侧的AI研究探索,在学术界,多年来高通的重要AI研究论文也在影响着行业,推动高能效AI的研究和发展。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲高通AI研究主要涉及领域,来源:高通

从高通历年发布的AI研究论文来看,高通在计算机视觉、无线和射频传感、能源效率、机器学习、音视频和语言处理、数据压缩模型生成、个性化与联邦学习、强化学习、AI编译器和算法等AI前沿基础理论研究领域均有不少研究成果发布。

这些研究在生成式AI浪潮中都发挥着重要作用。

值得一提的是,就在最近的2023年CVPR上,高通再次展示了几项重要研究,包括生成式AI在手机端的本地化运行、使用大型语言模型进行健身训练、XR领域的三维重建等等。

前文中提到的安卓手机本地运行Stable Diffusion的演示也成为今年CVPR接受的研究之一,此外,高通在CVPR上还展示了在安卓手机上完全本地化运行一个15亿参数的图像到图像模型——ControlNet。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲在手机上本地化运行15亿参数的图像到图像模型ControlNet,来源:高通

令人惊讶的是,ControlNet在高通平台手机上生成图片的速度已经可以达到12秒左右,这表明手机本地运行AI大模型已经具备了很高的可用性。在这项演示背后,高通AI模型增效工具包、高通AI软件栈和高通AI引擎均发挥了关键作用。

此外,在今年的CVPR上高通还展示了全球首个在手机上进行的1080P神经网络视频编码。

高通研发的神经编解码器可以根据特定的视频需求进行定制,可以在通用AI硬件上运行。根据实际演示视频,在搭载高通芯片的智能手机上,神经编解码器进行视频解码的速度已经达到了35FPS左右。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲在手机上进行的1080P神经网络视频编码,来源:高通

除了在最近的CVPR上展示的AI研究成果,近年来高通在前沿算法和模型开发领域一直持续迭代自己的技术。

比如面向动作识别领域,传统深度学习模型会逐帧、逐层地处理视频序列,这种计算密集型、高时延、低能效的处理方式显然不适应当下的生成式AI任务。

为此高通研发了FrameExit模型,该模型具备自主学习能力,针对较简单视频,它可以处理更少帧,而针对较复杂视频,它会处理更多帧,通过这种动态处理方式,模型的性能得以提高,能耗也有所降低。

另外,高通在移动终端上演示了其最新的量化技术和创新的编译器栈。在常用动作识别基准测试平台上,相较于其他方法,高通方案的计算量和平均时延可减少五倍。

此外,高通利用INT4模型在终端侧实现了全球首个实时超级分辨率任务处理,与INT8相比,INT4模型的性能和能效提高了1.5倍到2倍。

值得一提的是,多年来,高通AI研究团队也一直在探索生成式AI。

高通在生成式AI领域的研究可追溯到生成式对抗网络(GAN)和变分自编码器(VAE)。

高通利用VAE技术创建了更好的视频和语音编解码器,将模型规模控制在1亿参数以下,此外,高通将生成式AI理念延伸到无线领域来替代信道模型,研发出了更高效的通信系统。

对于如何将生成式AI模型用作通用代理来构建计算架构并使用语言来描述相关任务和行为、如何通过增加感知输入提升设备与环境的交互能力等议题,高通均进行了相关研究并取得了一定成果。

可以说,十五年来高通在AI领域的深厚积累,已经成为今天他们发力生成式AI、推进混合AI发展的关键技术底蕴。

四、生成式AI席卷全球百业千行,高通为这场“进化”按下加速键

望向不远的将来,随着生成式AI技术的快速迭代发展,未来性能强大的生成式AI模型会变得更小,与此同时,终端设备的处理能力不断提升。

生成式AI融入各类智能终端设备,将成为重要趋势之一,云端与终端相结合的“混合AI”,也将会成为AI落地的重要形式之一。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

毫无疑问,生成式AI会驱动新一轮内容生成、搜索和生产力相关应用的发展,席卷智能手机、笔记本电脑和 PC、汽车、XR 以及物联网等几乎所有终端品类。

智能手机将成为真正的数字助手,变得知你懂你,能够高效地提供精准的AI服务;笔记本电脑和PC将借助生成式AI是现实生产力的“质变式”升级;XR领域的3D内容创作和沉浸式体验也将迎来革新,AI渲染工具将让创作者生成3D物体和场景,并最终创造出完整的虚拟世界。

手机玩Stable Diffusion 15秒出图?“混合AI”新未来已至

▲生成式AI模型面向XR领域赋能对话式AI和渲染工具,来源:高通

作为底层技术和生态构建者的高通,正成为产业中不可或缺的一环。AI的应用正在迎来一次“进化”,而高通正在为这次革命按下加速键。

结语:生成式AI颠覆千行百业,混合AI成推动普及的钥匙

今天,生成式AI正在颠覆传统的搜索、内容创作和推荐系统的方法,对各行各业产生深刻影响,并在实用性、生产力和娱乐性方面给不少应用带来实质性提升,几乎所有科技公司,都会卷入生成式AI的浪潮。

在这样的大趋势下,生成式AI会成为主流体验,而云端和终端将协同工作的混合AI将成为这种体验的底层保障。百亿甚至千亿规模参数大模型落地终端,也将在不久的将来成为现实。

目前高通在技术、生态以及全球规模化方面的优势相对明显,这也让高通成为生成式AI落地终端这股浪潮中的核心产业参与者之一。

未来生成式AI会给我们生活带来哪些变革,高通又将通过怎样的技术和产品影响产业,我们拭目以待。