芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
芯东西7月30日报道,今日下午,上海通用智能CPU创企此芯科技发布AI PC战略及其首款芯片“此芯P1”,并全面开启AI PC产业链战略合作。
这意味着AI PC芯片市场迎来又一重要玩家!
历经15个月研发、4个月生产、3个月测试,此芯科技推出专为AI PC打造的高能效AI CPU芯片——此芯P1。
该芯片采用6nm制程工艺、12核Arm架构CPU(包含AI指令加速)、10核桌面级GPU设计,内置多媒体引擎、高性能的访存子系统和丰富的AI异构计算资源。
其端侧AI异构算力达45TOPS,满足Windows AI PC提出的40TOPS算力要求,可运行100亿参数以内的端侧大模型,跑大语言模型吞吐量可达30tokens/s以上。
“此芯P1”一次性流片成功,经严格测试,完全达到量产要求,将正式进入产品化阶段。
三年磨一剑。此芯科技创立于2021年10月,“此芯P1”于今年4月成功点亮,距今刚过100天。
此芯科技创始人兼CEO孙文剑特别感谢了联想集团、蔚来汽车、Arm、安谋科技、Cadence等对此芯芯片的定义、研发、方案提供的大力支持,并对众多投资方的理解与信任予以感谢。
▲企业信息查询平台企查查显示的此芯科技融资历程,最新一轮融资是今年4月的数亿元A+轮融资
一、基于“一芯多用”发展战略,打造新一代AI PC算力底座
“三年前的一个夏天,我和我的伙伴们勇敢踏上这条充满不确定性因素和挑战的道路,创立了此芯。”孙文剑回忆道。
三年前,当看到AI技术蓬勃发展,他萌生了成立一家AI CPU芯片企业的念头。那时生成式AI还没兴起,无论是国际大厂还是国内创企都将注意力放在数据中心服务器芯片、云端AI训练或推理芯片上,真正在做AI CPU的企业寥寥无几。在孙文剑看来,时至今日,在国内这条赛道上,此芯科技依然是孤独的前行者。
在产品开发及与客户深入合作的过程中,此芯科技快速形成了“一芯多用”的发展战略,此芯定义的AI CPU可用于AI PC、服务器、智能座舱和元宇宙,一方面因为其定义的产品能满足这些场景的需求,另一方面多场景落地能增加销量,摊薄前期研发成本,带给客户更高性价比的产品。
在研发方面,此芯将坚定做多元异构,让CPU、GPU、NPU在一颗复杂的SoC上发挥优势。同时,此芯既拥抱全球生态,又与本土生态紧密结合,为不同用户群体打造有竞争力的产品。
孙文剑坦言,一款有竞争力的CPU,面对的生态地位非常高,需要的人才密度特别大,所需要的资金体量也很大,产品的导入周期很长,难点多到能列出一大长串。
此芯科技深知路要一步一步的走,首先会聚焦于AI PC产业变革,与合作伙伴一起打造出有竞争力的产品,同时有序开展其他平台和解决方案的建设,最终实现个人计算、车计算、元宇宙计算和工业计算四大平台范围的多元发展。
孙文剑认为,PC是人类过去40年最重要的发明之一,PC产业发展可分为图形界面革命、互联网革命、生成式AI革命三个阶段。端侧生成式AI正在推动PC产业的第三次革命。
在三年前做产品定义时,此芯科技就将PC作为主场景,充分利用AI技术来打造新一代算力解决方案,并在思路上逐步形成了新一代AI PC算力底座的五大特点——异构算力,高能效,面向生成式AI构建丰富的软硬件开放生态,混合AI,提供系统级安全和隐私保障。
据孙文剑分享,此芯科技有一支非常优秀的SoC团队,不但完成了前端的架构和设计验证,而且独立打造了此芯自己的后端处理流程,高质量完成了芯片后端的设计,确保芯片的性能、功耗、面积在先进制程下达到最优。
此芯科技的首款芯片“此芯P1”,便是在此基础上设计而成。
二、首款AI CPU详解:12核CPU、10核GPU,能跑百亿参数大模型
作为一款专为AI PC打造的高能效CPU,此芯P1采用6nm制程、Arm架构多核CPU、全新架构的高性能桌面级GPU,还有强大的多媒体引擎、丰富的AI异构计算资源和高性能的访存子系统。
该芯片的具体特性如下:
1、CPU:12核Arm CPU(8个性能核+4个能效核大小核设计),主频最高可达3.2GHz,针对PC场景优化的多级缓存设计,还有高效的机器学习指令增强,集成2个SVE2向量加速单元,并有硬件级安全特性保障。
站在用户角度考虑,CPU核心有两点很重要:高能效,生态丰富。这也是为什么此芯科技选择采用Arm架构。孙文剑认为Arm架构有机会在AI计算时代成为端边云一体的统一算力架构。
2、GPU:旗舰系列10核桌面级GPU,满足极致桌面渲染与通用AI计算需求;新一代硬件光线追踪,能实现媲美主机级别的游戏体验;采用新型几何图形处理流程,功耗节省可达40%以上;灵活的可变速率渲染(VRS),性能提升可达50%以上;面向多场景的此芯GO图形引擎,满足行业应用需求。据孙文剑透露,此芯团队正与产业伙伴合作,实现超出大家预期的GPU性能水准。
3、异构AI引擎:端侧AI异构算力达45TOPS,可运行100亿参数以内的端侧大模型,运行大语言模型吞吐量可达30tokens/s以上,支持Stable Diffusion文生图。
其AI处理能力由CPU内置的SVE2向量加速扩展、GPU支持OpenCL/Vulkan加速、30TOPS算力NPU、对音频视频处理更高速高效的专用DSP、NeuralOne AI软件栈高效的异构调度等共同实现。
此芯P1已完成对多种开源大模型的适配优化,比如Llama、通义千问等端侧大模型。SVE2在预填充(Prefill)阶段带来32%~2.2倍的性能提升,在解码(Decode)阶段可带来27%~42%的性能提升。后续此芯科技将继续引入Arm AI加速,结合GPU和NPU的异构算力,进一步加强端侧大模型的支持。
4、多媒体引擎:具备4K120帧显示,最多支持10路外接显示;支持8K60帧视频解码、8K30帧视频编码;支持PC级别的高保真应急处理,内置专用DSP;支持4K30帧ISP和多摄像头输入。
5、高性能的访存子系统:128-bit LPDDR5低功耗内存,数据传输率可达6400Mbps,带宽可达100GB/s,容量可达64GB。
6、高效的功耗管理:精准的动态调频调压,多电源域和动态的电源门控,支持标准的PC电源工作模式,通过综合设计来实现功耗和性能的调配和平衡。
7、全方位的安全引擎:生态完善的CPU安全特性,满足认证需求的高密和国密算法,灵活的TPM/TCM安全方案,从底层保证数据安全。
8、多样化的外设接口:支持PCIe 4.0、AI加速卡、4x USB-C、2x GMAC等,通过不同配置灵活扩展了AI运算、图形图像渲染、不同类型外部存储控制等功能,结合NPU可提供5路高清流畅视频剪辑对比。
9、多操作系统支持:是全球为数不多采用统一固件支持多桌面操作系统产品,其软件团队对内核及框架层做了全栈优化。
“在第一代产品中,我们的团队就前瞻性地采用了许多业界一流的技术,让此芯P1成为一个有竞争力的产品。”孙文剑说。
三、融合两大架构优势,融入PC产业朋友圈
此芯科技不止是交付芯片,还有完善、成熟的解决方案。
除了有竞争力的硬件平台、标准的软件SDK、标准的BIOS外,此芯科技还与操作系统和大模型进行了开发、适配与优化,秉承开放心态与产业伙伴一起打造越来越有竞争力的AI PC产品。
据此芯科技联合创始人、系统工程副总裁褚染洲分享,此芯AI PC平台有三个策略:融合x86和Arm架构优势,融入PC产业朋友圈,融通AI的世界。
褚染洲说,此芯科技集合了众多新兴产业的研发老兵和移动设备领域的佼佼者,从一开始甩开各种包袱,融合吸纳各家之所长,更好地实现此芯Arm架构CPU芯片在PC领域的普及和融入。
基于“三融策略”,此芯推出了新一代高能效AI PC平台解决方案。
其一大特点是可扩展异构计算,可通过PCIe接口扩展的独立GPU和独立NPU来进一步提升异构算力。另外,此芯平台标配高带宽存储,大容量空间作为主内存池,同时还支持高速USB接口,可扩展外部存储,提供大容量的存储平台。
此芯的一款芯片就能支持笔记本、迷你电脑、一体机、台式机、家庭娱乐主机、企业边缘侧主机等多种产品形态。
为了支持多种产品形态,此芯创新性地推出了弹性化电源设计方案:左边VR+DrMOS常见于高性能、主流x86 PC设计中,右边PMIC是极致轻薄本、二合一等移动设备的主要电源供电方式,中间便是此芯独创的混合VR+DrMOS、PMIC模式,能提供更大的弹性,以应对复杂供电能力、功耗、性能、散热和空间要求之间的平衡。
褚染洲说,三种组合设计都已经在平台上面充分验证过了,这离不开此芯自主研发的集成在此芯P1的系统管理单元和优秀的电源管理架构。电源在高性能芯片和终端产品里是最具挑战的技术之一,也是此芯在融合路上坚定的第一步。
此芯科技积极融入PC产业链,能够支持新兴厂商从x86 CPU无缝切换到此芯P1。如果采用此芯P1的合作模式,能以较低成本快速完成一个产品的研发生产和上市周期。
此芯已引入ODM、IBV、IHV等产业伙伴,推动Arm端侧UEFI+ACPI标准(Arm SystemReady认证、多桌面操作系统支持),兼容PC全供应链,并能做到8~12次通孔、高密度板等PC类产品常用全类型PCB的使用。
褚染洲承诺,此芯科技会提供全面的设计文档、完整的开发工具、研究的参考设计、可靠的固件和驱动、快速高效的客户响应,欢迎大家接洽。
四、自研全栈软件方案,加速AI PC行业创新
此芯科技联合创始人、软件工程副总裁刘刚谈道,在芯片公司里,软件工程师的首要工作是发挥硬件的全部能力,不同用户场景往往意味着不同的软件解决方案,此芯科技的AI PC软件解决方案首先面对的就是生态话题。
据他分享,这些年Arm逐渐发展向高性能领域,结合高能效优势,在PC领域占据一席之地,此外Arm提前多年在异构计算方面进行了技术和生态积累,而且是一个从硬件到软件都开放合作的生态,有利于集众人之力进行突破和创新。
此芯科技希望建设一个关于PC的新生态,这个生态既不像x86那样封闭固化,又不像其他新兴生态那样被动,既有x86生态带来的高性能体验,又有开放协作的特点。在刘刚看来,Arm正是新生态的最佳选择。
除了机遇外,还有一些PC固有挑战,比如启动固件、统一内核等方案需要全行业一起推进,新型的端侧AI方向更需要大家紧密协作。
作为AI PC芯片领域新势力,此芯科技重点聚焦这四大方向进行软件优化:用UEFI统一固件解决多桌面操作系统的支持问题,用统一内核支持DT/ACPI、拉通移动端和PC端,用此芯前沿的解决方案(此芯GO图形引擎、此芯NeuralOne AI软件栈)和Arm及众多生态合作伙伴一起拥抱标准化的机制,加速AI PC行业创新。
如图,移动端与PC端的启动固件不同,安卓和嵌入式世界的标准接口是Device Tree,PC世界用的是ACPI接口。两套做法对应两个生态的不同规则,移动端更强调垂直整合,PC端更强调通用性。芯片原厂也需要更多启动固件来支撑。
通过此芯各团队的创新,此芯实现了通过一套固件支持多桌面操作系统启动和一套内核同时支持ACPI和Device Tree两个规范的重要突破。
此芯科技现场演示了由此芯P1驱动的电脑从BIOS到操作系统的完整启动过程,BIOS会对系统进行初始化和质检的动作,然后切换到操作系统的启动过程中,会出现多个操作系统的选择画面。从演示来看,此芯P1运行流畅,能跑网页浏览、本地和在线视频播放、办公套件等不同PC应用。
这意味着其可以通过一个固件支持不同的国产和国际操作系统。刘刚强调说,做到这一点意义重大,一方面兼顾多个生态,为此芯进行了研发的最大化资源复用,另一方面帮助解决了行业痛点,极大降低合作伙伴进行产品化的难度。此芯也会与上下游一起用UEFI+ACPI的解决方案,推进AI PC系统底座的标准化建设。
在GPU图形领域,好的GPU往往伴随着好的视觉体验,但GPU的开发和调试充满挑战,比如兼容各类桌面环境、适应传统应用、支持OpenGL标准、不同多媒体框架协同等问题。
“在业内,有能力、有勇气、有动力去解决这些难题的公司屈指可数。”刘刚谈道,此芯在合作伙伴的支持下,自己设计的此芯GO图形引擎引入了中间的应用兼容层,并在核心驱动层实现了原创优化,目标是一站式解决行业痛点,实现桌面级GPU极致体验。
此芯同样通过PPT演示了效果,左边代表生产力相关的工程建模渲染软件,中间是桌面PC上的传统3A游戏大作,右边两个是GPU桌面级基准测试,此芯P1都能流畅运行。
随后,此芯还演示了此芯P1能够在三路并发的情况下很好支撑高画质游戏。
针对AI应用,此芯推出了面向不同硬件单元的NeuralOne AI软件栈,来帮助开发者隐藏所有的硬件信息,降低开发难度,并对不同类型的主流模型和推理框架提供广泛支持。
现场演示了在此芯AI助手上,用NeuralOne AI软件栈适配阿里通义千问近百亿参数的大语言模型的效果,从左到右分别涉及数学物理题、高考作文题、中国人文经典迷惑性问题,此芯AI助手都可以用中文游刃有余地与用户交流。
除了大语言模型外,文生图模型也能跑在此芯P1上。该芯片可本地支持把复杂的提示词转化成一幅富有中国山水意境的精美图片。此芯希望其AI PC芯片能处理不同类型的AI需求,受益于大内存带宽和容量,将来扩展到更加复杂的任务。
此芯科技期待共建AI PC开放生态,包括用此芯P1打造Arm原生开发套件,重点布局异构AI端侧生态,继续贡献国内外上游开源社区,推动产业联盟和标准化。
结语:国产AI CPU迎来历史机遇
生成式AI技术正推动个人计算体验的重大变革,AI PC已经开启PC市场新的增长空间,给企业和用户带来更高效的生产力和更自然的使用体验。据市研机构Canalys预测,2027年全球AI PC出货将超过1.7亿台,占比超过60%。
此前苹果自研M1芯片已经在市场上证明了Arm架构芯片在高性能和高能效比上的出色表现,搭载高通骁龙X平台的笔记本电脑进一步掀起了由Arm架构驱动的AI PC的热潮。安谋科技销售及商务执行副总裁徐亚涛认为,今天此芯同样证明了Arm可以成为PC向AI革命的一个重要助力。
如今,随着高能效通用CPU“此芯P1”走向商业化落地,AI PC芯片市场增加了一款有竞争力的国产芯片选择。
孙文剑认为CPU正在经历一个巨大的历史变革:普通CPU变革为AI CPU,封闭生态变革为开放生态,高能耗CPU变革为高能效CPU。他相信在这场变革中,中国一定会诞生优秀的AI CPU企业,成为全球信息产业当中不可或缺的一环。