芯东西(公众号:aichip001)
作者 | ZeR0
编辑 | 漠影
从打造一颗芯片到推出系统级解决方案,似乎已经成为一家云端AI(人工智能)芯片公司的必然走向。
在9月1日-3日举办的2022世界人工智能大会上,云端AI算力企业燧原科技推出了针对大规模、集约化AI算力应用场景的高性能AI加速集群产品云燧智算机(CloudBlazer POD),以及全栈式AI开发服务平台和通用大规模算力管理平台燧池智算平台(CloudBlazer Station)。
这是燧原科技在其面向训练和推理的云端AI芯片相继落地后,为提供AI场景计算能力建设而打造的最新力作。
此前,燧原科技的两代“邃思”芯片已应用于大规模AI集群工程中,落地超千卡规模液冷AI集群。而两个软硬件新品的发布,有助于降低燧原AI算力产品在数据中心的部署和应用门槛,并进一步挖掘其芯片在实际业务场景中能发挥出的有效算力。
从迭代核心芯片到主打系统和软件,这背后凝聚了燧原科技的哪些经验与思考?近日,芯东西与燧原科技创始人兼COO张亚林进行深入交流,分享关于两款新品的更多技术细节,以及对AI芯片产业未来走向的前瞻性见解。
▲燧原科技创始人、COO张亚林
一、降低AI算力中心部署成本,助建大规模、集约化、绿色低碳数据中心
张亚林告诉芯东西,目前燧原科技有4条主要客户赛道,分别是泛互联网、垂直或传统行业、政府业务、产学研。燧原在这些业务线上均已落地样板客户,并泛化了所有这4条赛道的客户需求,将它们集成在云燧智算机中,形成一套“软件+硬件+系统化”的总体算力底座产业化方案。
云燧智算机采用一体化设计,是专为AI场景下计算、存储、网络、软硬协同设计的标准化产品,通过一站式预集成AI加速硬件、一体化开发与管理平台及配套AI应用软件与服务,提供包括采购、安装、运维一体的交钥匙方案,来帮助用户实现AI算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。
▲云燧智算机整体设计
从外形来看,云燧智算机与美国AI计算企业英伟达打造的DGX POD看起来差不多。张亚林解释说,两者产品形态类似,但又有些不同,云燧智算机可以进行定制,散热方式可以定制成是液冷或风冷,存储、算力、CPU、网络都可以定制,以组件化、菜单化形式提供给客户。
据他透露,云燧智算机已开始落地,现有落地场景包括构成超千卡液冷AI液冷集群,已在国家级实验室上线,在To G业务也实现了大规模应用。
从燧原此前积累的经验来看,数据中心很关注能效比和性价比,这也是云燧智算机的优势所在。
云燧智算机代表了燧原科技经过多个大规模工程实践所形成的计算、网络、存储的整体设计:以全局优化为目标,基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,在其自研AI芯片“邃思”与CPU的异构算力支撑下提供出色的AI性能。
据其披露的数据,在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,计算节点内基于GCU-LARE2.0多芯互联技术可提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s,可支持数千卡规模集群高速互联,突破E级算力,并能支撑超千亿参数巨量模型的高效、并行训练。
通过采用一体化冷板式液冷技术、先进流量控制系统等,云燧智算机能够将数据中心整体能效(PUE)降至1.1及以下。
张亚林说,燧原的产品均为自主开发,对芯片、板卡的成本有非常强的认知,其供应链优化也起到了关键作用,再加上对软件的增值、跟OEM战略合作中一体化设计在成本上的优化,能够将能效、算效和性价比做到了极致。
如果将实现降低功耗的目标拆解来看,首先是做到整个芯片和板卡的能耗控制,在算力利用率高时,功耗能到峰值,并且不出现稳定性问题;在算力利用率低时,功耗要降下来,不能空耗电。
接着是控制整个系统的功耗。这取决于软硬件联合优化是不是足够好,同时循环系统也很关键,相比传统的风冷方式,液冷方式的散热效能高,能将周边温度更好地控制在一个较稳定的状态。
二、软件,AI芯片公司未来的核心竞争力
“算力底座的概念,已经从芯片变成了系统,或者是「系统+软件」。”张亚林谈道。
单说板卡、芯片性价比多高没有意义,最终客户买的是系统,因此是从系统角度看性价比。无论是计算中心还是各类垂直场景,都越来越呈集约化趋势,需要有能让AI算力更加开箱即用的交钥匙方案,这就要有将加速卡、CPU、存储、网络通通考虑在内的整个AI系统的整合,同时软件平台需将整个用户界面全盘规划。
“软件的复杂度、系统互联的存储、算力匹配的复杂度,都会大力增加整个AI系统工程化落地的服务,必须有足够强大的团队和足够多的know-how,才能够把这些东西集成在一起。”
张亚林称,这是一个很大的工程体系,要求整个团队具备全栈能力,芯片团队要掌握从芯片定义、架构、设计到流片、量产的全过程,软件团队要从全栈角度将底层驱动到上层框架全部拉通,系统团队则需具备AI计算卡、CPU、网络、存储等系统集成的大规模部署。
有了这样全链条的团队,系统与软件的配合才可能达到无缝地衔接与优化,才能真正从一体化、系统化的方式实现客户的价值。
张亚林特别强调说,AI芯片公司未来的核心竞争力,除了芯片本身之外,软件是一大关键。
软件研发的难度甚至高于芯片本身,从无到有,要考虑对不同场景的适配、对未来算法模型的支持等等,而必须触达足够多的客户,应用到足够多的场景,吸收大量的客户反馈再不断打磨软件,才有实现完备性的可能。
经过大量业务落地后,燧原团队将其触达的客户软件开发的模式、用户的体验和一些业务的痛点提炼整合到燧池智算平台,使其兼具算法仓库、训推一体化、调度、运维等能力。
与云燧一体机搭配,燧池智算平台能够对上层用户屏蔽底层算力异构性,实现云燧AI算力集群的大规模算力资源管理调度,为用户提供AI模型生产及应用发布的全流程服务。
▲燧池智算平台
其算法服务层包含智能算法管理平台和训推一体化平台。燧池智算平台的算法仓内置有几百个算法,既有已被大规模使用的业内标准算法,也有很多经由燧原二次开发或修改、使其更好贴近实际业务应用的算法。在基础设施层,异构算力调度平台负责将所有任务切分调度,智能运维平台让用户能够随时远程监控数据、存储、算力、网络使用率及故障异常情况。
张亚林透露道,燧原的软件会继续向四个方面发力:易用性、完备性、迁移性、兼容性。
三、剧透云燧智算机迭代规划,对AI芯片发展抱有长期信心
谈及云燧智算机与燧池智算平台的后续迭代规划与期望,张亚林说,燧原一直秉持算力普惠的原则,希望通过系统产品、软件产品、集约化的方式,能够真正给用户带来性价比、能效比。
他相信短期内,这两款软硬件新品开箱即用、模块化的设计方式,会进一步简化数据中心的建设难度、缩短数据中心的建设周期;长期来看,随着燧原芯片及软件栈的迭代,其POD产品也会随之更新,以系统方式提供更高价值。
据张亚林观察,随着中国数字经济、算力经济升级,现在到了科技兴国的关键阶段,即科技发展如何真正推动生产,要做到这一点,就要“用”起来,从客户侧感受到价值。燧原已经站到了“让用户用起来”的第一线。
“我觉得所有的AI芯片公司都必须征服从点亮到量产、量产到软件规模化、软件规模化到系统和生态。”张亚林说,“这个过程是没有捷径的,它是一个自然规律,就跟触达客户一样,这就是看这些AI芯片公司能不能真正面向客户,真正从系统和软件的角度把落地和打磨的速度转起来。”
目前国际AI计算巨头在生态方面壁垒森严,国内AI芯片企业们尚难以与其“硬碰硬”。张亚林告诉芯东西,国产AI芯片如想提高市场竞争力,需在落地性价比上展现优势,“通常我们在泛互联网客户落地的时候,要求的是两倍净值和性价比,在同样的性能下,要达到它的两倍性价比。”
当被问及对AI芯片赛道的长期信心,张亚林回答说:“做国家认为难但是对的事,我认为这条主向是不会变的。”在他看来,短期内遇到困难在所难免,大家对这个事业的信心也会上下起伏,过程需要长战斗,但发展的终极目标、必要性都很清楚,假以时日,一定会有国内企业跑出来。
他认为,国产AI芯片在内容审核、安全检查等特定场景中已能跟国外竞品同场竞技,在两个方面还需补强:一是场景适配性与完备性,需要有更多用户的使用和更多场景的接入,来加速产品的打磨;二是生态化,即实现整个AI系统与用户需求更好地结合、与更多用户的适配性越来越高。
对于支持日趋流行的Transformer类模型,燧原正在看下游市场的风向,观察客户现阶段是否愿意承受稀疏化的改变,“但是它一定会在燧原未来的蓝图里面。”张亚林说。
结语:大算力AI芯片企业走向系统化布局
从芯片研发到走向规模化落地,以燧原科技为代表的多家国内大算力AI芯片公司,正朝着系统化方向展开全方位的布局,以应对愈发激烈的市场化竞争。
“我们第一代在讲芯片、讲板卡,第二代在大力优化我们的软件、泛化应用、可迁移、兼容,再往下走,我们现在开始讲系统+软件+组件+模组这样的整体赋能,这其实是客户的趋势。”张亚林说,燧原定位为AI算力基础设施提供方,因客户之需而变。
他相信,未来AI必然走向系统化、集约化、泛化,AI芯片也会有更好的通用性价位和弹性价位,既具备面向未来无数不确定算法的通用性,又能够针对特定场景,在一定泛化的基础上极致打磨其能效和性价比。