芯东西(公众号:aichip001)
作者 |  程茜
编辑 |  漠影

大模型这把火,已经烧到了边端设备!

一段时间以来,能更好适配手机、PC等边缘设备的端侧模型如雨后春笋般接连冒出,微软、苹果、Hugging Face、OpenAI、Mistral、谷歌等连珠炮式甩下轻量级模型;AI PC、AI手机、汽车座舱等大模型加持的边端设备层出不穷,产业链上下游玩家争相入场。

随着技术的成熟和应用场景的拓展,端侧大模型市场已经成为AI领域的一个重要增长点,但对于边端设备而言,承载大模型能力非一日之功,即便参数规模下降为大模型落地部署提供了条件,边端设备本身的硬件载体同样至关重要。

因此,连接大模型与边端设备能力的底层芯片玩家成为其中的关键变量。那么,在边端大模型部署落地加速的背景下,还是非GPU不可吗?什么样的芯片架构将成为边端玩家首选?

一、大模型向边端侧下沉,多种应用方向探索已涌现

大模型加速落地应用已经成为共识,云端大模型向边端下沉的产业趋势日渐明显,边端大模型爆发前夜已至。

一方面,边端大模型的参数规模、性能表现与企业的需求正相互契合。

首先,动辄千亿、万亿参数规模的大模型背后是无底洞似的烧钱游戏,与尚没有探索出高利润商业模式的现状相比,鲜少有企业能持续投入。因此,“大模型反卷小型化”成为一大趋势,性能优越、更易部署、更具性价比的小模型成为玩家们争夺市场的关键。

部署在边端设备上的模型可以满足不同需求,使得所有规模的企业和组织都能找到适合自己的最优解。

其次,从实际性能表现来看,云端大模型对于企业核心痛点需求、个性化任务的处理能力,都远不如距离业务、用户更近的边缘端。因此其在私有化部署、个性化处理、数据安全与隐私等方面都更具差异化优势。

另一方面,软硬件的提升为边端大模型走向现实提供了必要条件。

诸多小参数模型已经展现出强大性能表现,边端设备承载大模型能力的可能性显著提高。

微软发布的参数规模仅为3.8B、7B、14B的Phi-3系列模型,在下图的性能对比中,参数规模较小的模型与GPT-3.5的性能差距并不大,且在一些评测指标上已经超过GPT-3.5。可以看出,参数规模、模型大小不再是决定模型性能的唯一指标。

国产AI芯片崛起!大模型下沉边端,GPU之外的芯片新潮流

▲模型性能对比(图源:Phi-3研究报告)

同时,模型的量化压缩、模型裁剪、知识蒸馏等技术加速演进,使得大模型可以在不影响性能的前提下减小模型尺寸和计算量,从而可以部署到边端设备中。

边缘设备需具备更强的计算性能,包括更高的算力、足够的显存和合理的功耗等。专门为边缘计算设计的AI芯片涌现,在硬件层面为边端大模型落地提供了基石。

可以说,不论从模型能力本身,还是边端设备的升级优化来看,大模型向边端下沉已经成为必然,且是让大模型能为企业带来经济效益提升的有效路径。

如今,AI PC、汽车座舱大模型、智慧商显等领域已经率先展现出爆发潜力,成为边端大模型落地的主要方向。

全球市研机构Canalys发布的数据显示,今年第二季度,全球AI PC出货量达880万台,占当季所有PC出货量的14%。大模型与PC的结合使得这一设备的生产力工具属性被无限放大。

曾经PC只是被用于制作PPT、处理工作的工具载体,而现在基于内置AI能力,用户只需要语音、手势等交互,就可以让其辅助生产、创作,快速完成一份PPT或者生成一篇文章的文章。AI PC为用户带来了更好体验,能实际解决曾经用户使用传统PC时的诸多痛点,并实现降本增效。

第二大较为突出的场景就是汽车座舱,大模型对于自然语言的理解、生成能力,使得其可以综合处理语音、视觉、视觉等多模态数据,并能够提供千人千面的语音识别、娱乐信息及驾驶辅助个性化定制服务。

相比于只能通过传统物理按键进行交互的传统座舱,大模型加持的座舱功能可实现的范围边界逐渐外延。这也使得智能座舱市场的规模正处于飞速增长阶段,全球交易咨询服务提供商毕马威中国预计,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率将超过17%。

还有如今国内企业出海加速,需要与海外客户合作、开会等场景,智慧商显、会议软件等内置的大模型加持工具可以提供实时翻译、会议纪要生成等。

这些能够切实解决用户办公特点的功能几乎已经成为设备标配。国内市研机构洛图科技的数据显示,2024年,中国大陆会议场景中显示产品的市场规模将达130亿元,同比2023年增长6.5%。

这些适用于大模型应用落地的场景有一个共同特点就是,能够真正基于边端大模型的能力,为客户真正解决痛点带来价值。

二、借创新架构之力,破局边端大模型落地的算力难题

大模型真正落地部署到边端设备上,还有一个被考验的关键角色就是底层芯片玩家,其背后的挑战巨大。

原因在于边端往往只有一个独立设备,其散热条件、体积大小等都会受限,需要芯片兼具体积小、性能强、功耗低。且在成本和数据方面,边端设备玩家也更为敏感,边端设备往往需要处理企业或个人的内部数据,数据隐私和安全更为敏感,需要防止数据泄漏和滥用。

此外在一些实时性要求较高的自动驾驶、工业控制等场景,需要大模型能够更快响应作出决策。

这些既对芯片玩家提出了不小的挑战,同时也是边端大模型落地部署的必要条件,底层芯片玩家只有将这些已经摆在桌子上的难题逐个击破,才能占据先机。

随着大模型应用落地加速,推理需求增加,芯片格局已经从GPU一家独大的局面向异构CPU、NPU各路芯片群雄逐鹿的时代变迁。

起初,拥有强大并行计算能力的GPU无疑是大模型训练的首选,其可以在短时间内完成大量计算任务。但在AI推理阶段,一些场景下GPU的整体性能表现并非最佳。

对功耗、成本敏感的边端设备就是一大典型场景。除了居高不下的价格,GPU还因为拥有大量的核心和线程,需要处理大量数据,但每个核心都需要消耗电能,随之上升的就是整体能耗,再加上需要足够高效的散热系统来保证GPU在适宜温度运行,就会进一步增加能耗。

这一背景下,在边端场景催生了异构CPU和NPU两种方案。

异构CPU就是将NPU集成于CPU之上,使其可以更好适应不同种类任务,能实现性能、功耗、成本的平衡,适应多元化且复杂的计算需求。

这种设计的好处在于,一方面可以将更多的晶体管资源用在能够进一步提升多核性能的能效核上,或用于提升总体性能的缓存上;另一方面可以留出散热空间,提升运行频率来获取最高的单核性能。

然而,集成多种不同类型的核心和技术,也为边端设备集成异构CPU带来了更高的设计和制造成本。再加上其编程和优化相对复杂,需要开发者更熟知不同核心的性能和特点。

因此,这一架构对于边端设备玩家而言并不是最佳方案。

专为AI设计的NPU芯片,在当下几乎已经成为大模型在边端应用的最优解之一。 相比于异构CPU和GPU,NPU在神经网络高效运行方面的适配性都要更高,且其具备的高性能、低功耗优势也与边端大模型部署十分契合。

NPU可以根据特定应用场景优化,能在有效降低功耗的同时,满足边端设备对功耗的限制。这对边端设备部署大模型时的功耗、性能、成本等都带来了更为灵活且可扩展的解决方案。

一方面,通过先进工艺制程、低功耗设计技术以及算法与硬件的协同优化,能够提升芯片性能和能效比。另外一方面,通过架构创新,提高芯片计算速度和效率。

值得一提的是,在边端大模型落地中,芯片架构创新越来越成为关键。 存算一体、可重构计算架构、DSA专用领域架构等诸多创新涌现,为边缘设备提供了更为强大的计算能力。

在这之中,因为大模型所需的计算量和数据存储量激增,因此在强大算力背后,高效存储和数据通信机制同样重要,如何解决内存墙和存储墙问题成为拉开NPU利用率的关键。正因如此,存算一体架构成为其提升计算效率和降低功耗的重要途径。

存算一体架构的优势,主要体现在高效计算、功耗、性能三个维度。

首先,存算一体架构将存储与计算集成在统一芯片上,可以避免传统架构中数据在存储器和处理器之间频繁传输所产生的延迟。基于此,边端大模型应用时能更快获取和处理数据,提高响应速度,满足实时性要求。这也在一定程度上能减少数据的搬运,减少对内存带宽的需求,避免大模型因内存带宽不足而导致出现性能瓶颈。

国产AI芯片崛起!大模型下沉边端,GPU之外的芯片新潮流

同时,这一架构通过在存储单元中直接进行计算,能够同时对多个数据进行处理,提高了计算效率和吞吐量,能够快速处理边端大模型应用中语义理解、图像识别、特征提取等复杂的计算任务。

其次,功耗方面,存算一体架构省去了传统计算架构中数据搬运过程,能降低损耗,保证需要长时间待机或间歇性工作的边端设备,能够在非工作期间降低功耗损耗。因此与传统架构相比,在相同的算力输出下,存算一体架构的能效比有显著提升。

综上,通过优化数据处理方式、降低功耗、提高性能的存算一体架构,已经为边端大模型的部署提供了一种高效的解决方案。

三、国内AI芯片创企边端大模型系列产品落地,最高算力100TOPS

大幅提升计算能力的存算一体芯片概念随之日趋火热,主攻这一技术路线的国内AI芯片创企后摩智能在当下拿出了自己的最新成果。

近日,后摩智能基于存算一体推出了边端大模型AI芯片后摩漫界M30,并基于这一芯片构建了智算模组和力谋AI加速卡。

国产AI芯片崛起!大模型下沉边端,GPU之外的芯片新潮流

从M30来看,存算一体架构已经成为其加速边端大模型部署落地的杀手锏。这也是一直以来后摩智能技术路线的演进方向,用更高的性能、更低的成本、更低的功耗提供大模型运行的计算底座。后摩智能联合创始人、产品副总裁信晓旭透露,将持续沿着架构创新这条路为边端大模型的商业化落地,实现真正普惠的AI提供算力保障。

面向实际应用落地场景,后摩智能考虑的维度是要兼顾计算性能以及成本、功耗以及易用性。

他补充说,一方面即便在端侧部署,模型大小继续上涨的趋势仍然可能存在,更大参数规模的模型更为智能,随之而来的就是更好的用户体验、更大的商业前景,实现商业闭环;另一方面就是持续降成本、降功耗,这也是边端设备玩家一直关注的重点。

目前,后摩漫界M30最高算力可达100TOPS,典型功耗为12W,可以支持ChatGLM、Llama 2、通义千问等主流大模型,实时运行性能可以达到每秒15-20 Tokens。

同时,在赋予边端侧设备大模型能力这件事,后摩智能坚持的还有让企业付出的成本、时间都更少。

这块芯片可以通过“+AI”的方式为边端设备提供大模型能力。信晓旭解释说,“+AI”的方式主要考虑企业的技术落地成本,其可以通过标准的PCIe口和原来的主处理器对接,让企业以最少的成本和改变就能直接调用大模型能力,缩短企业的开发周期与落地部署时间。

对于数据隐私保护,信晓旭认为,大模型输入输出的内容已经从简单的图像、文字向音视频、3D等形态延伸,未来用户家庭中的摄像头等智能终端采集到的信息,如果被送往云端其隐私安全无法被保证。而本地私有化部署的边端大模型就可以基于这些数据生成更懂用户的AI。

在产品布局与技术创新的同步推进下,为了加速存算一体AI芯片产业化,后摩智能还与中国移动正式签署战略合作,联合推进存算一体AI芯片的创新研发和量产应用。

同时,中国移动也是后摩智能布局边端大模型落地业务中的重要合作伙伴。双方的合作重点聚焦于智慧中屏、家庭智能终端、机器人等高度适配“+AI”模式的边端应用场景。

在AI PC方面,后摩智能已经与行业头部玩家联想达成战略合作,信晓旭谈道,如果用激进的眼光看待PC产业的发展,AI PC未来的核心计算单元可能会是AI,CPU可能会变成辅助。因此,在AI PC的技术布局下,作为底层芯片玩家的后摩智能正融入头部玩家的生态中占据先机。

大模型向边端设备下沉的产业趋势已经不可逆转,在信晓旭看来,设备更加多元化的端侧和边缘侧,其承载AI能力在未来会比云端更具生命力,这也是将成为真正让AI能够让更多人受益的更广泛技术和场景。身处其中的AI芯片玩家,如何实现芯片性能突破、产业链协同等将成为这一产业趋势下抢占市场先机的护城河。

结语:边端大模型亟待起飞,AI芯片创企迎新机遇

在应用落地端,国内大模型产业已经风起云涌,参数规模庞大的通用大模型目前尚未看到高性价比的落地应用场景,但靠近用户与企业业务的边端设备玩家已经开始探索大模型的深度应用。

考虑到边端设备的核心特性,后摩智能的目标很明确,就是为合作伙伴提供足够便宜、功耗低、易用性强的芯片,这样的产品目标与当下大模型产业下沉趋势的需求十分契合。

伴随着更靠近数据源、响应更快、延迟更低的边端大模型展现出腾飞的可能,芯片玩家与之协同探索产业变革的机遇点,以后摩智能为代表的国内AI芯片玩家已经拿出了更强的解决方案,这也同样是在GPU、CPU架构之外,创新架构的市场机遇。

在此背景下,锚定对解决大模型存储墙有着天然优势存算一体架构的后摩智能,将有望更快找到大模型深入行业的更大价值。