挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

智东西(公众号:zhidxcom)
作者 |  国仁 心缘
编辑 |  漠影

智东西12月21日报道,刚刚,燧原科技推出首款云端推理计算卡“云燧i10”及推理引擎“鉴算TopsInference”。

云燧i10是单槽位标准卡,支持PCIe 4.0,FP32算力可达17.6TFLOPS,BF16/FP16算力可达70.4TFLOPS,最大功耗仅为150W,在主流AI模型中的性能表现均超过GPU竞品。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

落地铺陈也基本就绪,云燧i10目前已经独立适配8款AI服务器,将于明年第一季度上市。

这着实令人感到惊异,作为一家成立于2018年3月的AI芯片初创公司,燧原科技研发和落地的速度,实在是太快了。

成立18个月推出其首款云端训练产品 “云燧T10”及软件全栈“驭算”,今年9月宣布“云燧T10”落地商用,如今首款云端推理产品正式量产发布。

任何一个环节出问题,都不可能做到如此迅速,况且燧原科技最先选择的云端AI训练芯片,还是AI芯片领域公认的最难的“山头”。

截至当前,燧原科技成为国内唯一一家同时拥有云端训练+云端推理完整解决方案的初创公司,也是腾讯连续三年投资的唯一一家AI芯片公司。

燧原究竟是如何做到的?通过与燧原科技创始人兼COO张亚林深入交流,我们试图还原这家AI芯片创企超高效率背后的“内功”。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”▲智东西总编张国仁(左)与燧原科技COO张亚林(右)

一、对标巨头,速度制胜

燧原选择了一条充满未来,但也荆棘密布的路。

云端训练及推理芯片的道路前方,始终屹立着英伟达,这样一座巍峨而难以逾越的高山。

“国外友商树立了珠穆朗玛峰,我们必须跑得比它更快,我们必须以更快的迭代速度、更快的客户反馈来加速产品迭代,才能在市场中建立自己的竞争优势。”张亚林说。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

燧原团队选择切入的云端AI芯片市场很广阔,但如果不能快速抓住机会占稳脚跟,未来市场再大,也只会是别人的囊中之物。因此研发和落地周期,都必须尽力缩短。

“在大公司有个「1+1」模型,芯片项目从立项到流片是一年,从流片到量产是一年。我们云燧T10在2019年5月底流片,2020年6月量产,精确地执行了这一模式。”

在张亚林眼中保证超高执行力,是趋向于成熟公司的必经之路。奔着“基业常青”的目标,燧原从创业之初,就在规划落实三个关键点。

首先是文化统一。文化是一个公司的根基所在,能从思想层面实现团队的高度协同。燧原在1.0阶段就开始打造燧原文化,如今已升级至2.0阶段。

燧原的文化核心是胸怀正道、开拓执行。其中胸怀是指要客户为先,共赢为本;正道是指忠于职责,勇于担当;开拓是指始于创造,归于价值;执行是指以终为始,以质为髓。

其次是行为模式统一。一个公司要做到规模化,必须有规范的制度流程。从成立之初,燧原就打造了环环相扣的管理机制,比如建立专门对项目进行监管的项目管理团队(PMO)、使用统一的项目管理原则和管理语言,再比如对执行过程中如何做关键决策、追踪热点等制度进行规范化管理。张亚林认为,这是大公司能行之有效持续推动产品研发落地的根本。

第三是形成正循环。当企业推出产品,开始落地并逐渐规模化,就会得到更多资本青睐和业内认可,从而形成反哺企业的动力,这样就形成正循环。而如果企业不是正循环,它的效率必然会受阻,出现走弯路的情况。“我们在整个过程中精准把握了正循环和产品迭代,所以才能做到这么快。”

于是,在燧原1.0阶段,刚成立18个月的燧原就推出了高性能云端训练产品,实现从0到1的破冰。

进入2020年,燧原非但没有被疫情“黑天鹅”打乱阵脚,反而按计划顺利进入“从1到N”的燧原2.0阶段,循序渐进地完成新融资、云端训练集群方案商用落地、云端推理加速卡量产发布等重要节点。截至今日,燧原已累计融资13.4亿元。

除了阶段进化、团队规模增长外,燧原的落地也更为多元。张亚林透露道,燧原目前针对互联网、垂直行业譬如教育、金融等方向正在进行头部客户的规模化落地,“新基建”也正在快速铺陈。

二、主流模型基准测试,表现超过GPU旗舰竞品

技术理工出身,也可以充满文艺情怀。

每个年末“压轴”出场的燧原旗舰产品发布会,其主题意义都很有文艺范儿。

去年燧原云端训练计算卡云燧T10发布时,张亚林将主题定为“芯火燎原”,希望云燧T10能一直开拓广袤的土地。

如今云端推理计算卡云燧i10发布,主题变成了“芯汉灿烂”,出自曹操《观沧海》中的名句“星汉灿烂,若出其里”。其中,“灿烂”寓意更多后续产品,以此寄予对云燧i10在星空上持续闪耀的期待。

通过对云端推理市场进行广泛调研和用户画像,燧原针对性地进行了极致能效提升、多用户虚拟化、工艺良率优化、散热方案增强等全方位产品打造,并完全独立重新设计了推理软件全栈和板卡系统,使云燧i10拥有出色的用户价值特性。

从燧原公布的基准测试表现来看,云燧i10可以说是不负所托。在主流的图像识别、视频增强、视频处理、内容审核、推荐等主流模型中,实测性能表现均超过GPU旗舰竞品。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

这得益于云燧i10的四个主要特征:

1、高算力、高精度:150W单槽算力密度下,FP32算力可达17.6TFLOPS,BF16/FP16算力可达70.4TFLOPS,单精度算力可达GPU竞品的两倍以上;采用自主指令集,支持从FP32到INT8等多种精度;采用512GB/s高存储带宽和16GB本地存储。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

2、高能效、高可靠性:智能功耗管理(APC采用动态调频调压(DVFS)技术将功耗控制到接近但不超过最大值150W,从而最大限度发挥算力;根据负载加速应用性能,支持RAS、ECC;通过硬件架构设计、硬件模块及软件全栈的配合,实现温度、电流、功耗等监测保护,可提供高能效比FP32算力和省电模式。

3、设备虚拟化(MID):最大可支持4个设备实例,具备计算与存储资源的独享性,多用户间安全隔离;单颗芯片上可同时部署不同的业务与负载,实现多任务并行,有效提高利用率;支持KVM、Xen等系统虚拟化平台;性能开销不到物理机的3%。

4、易编程、生态开放:开放C++和Python编程接口,支持CNN及NLP典型模型,支持TensorFlow、PyTorch、ONNX等主流机器学习框架,并通过SDK提供深度定制。

目前云燧i10已支持来自浪潮、Supermicro、新华三的8AI服务器。云端高算力密度推理服务器半精度算力可达1.1PFLOPS,边缘云推理服务器半精度算力可达280TFLOPS

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

当然,仅仅有高性能的硬件产品还不够,要充分挖掘硬件算力,必然离不开完善的软件工具。

三、从无到有,打造推理软件全栈

在研发云燧i10的同时,燧原从无到有地建立了一套对开发者友好的推理软件全栈,提供不同层次的开发模式,以及针对客户定制化算法模型的联合开发与优化。

这一软件全栈在应用层、框架层、SDK层和驱动层这四个层面进行布局。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

自顶向下来看,应用层的Model Zoo中内置70多种主流模型,覆盖计算机视觉、自然语言处理和语音识别以及其他主流AI算法。

在AI框架层,针对推理领域有很多自定义框架的特点,燧原打造了高性能神经网络模型推理引擎“鉴算TopsInference”,能将标准化框架及客户自定义框架中的模型转化成驭算统一执行模型。

下一层是SDK层,当所有模型被标准化后,燧原提供的图优化引擎“络算TopsNeuro”将模型解析成各种图结构。同时燧原还提供了包含各种分析调试及可视化工具的全套工具链“探算TopsKit”。

再往下是算子库,“擎算TopsOperator”支持500多个算子和80多个原子,能通过提供原生汇编实现与优化,挖掘更高的算力利用率。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

而用户能不能自己定制算子、操作内部的推理栈,则需依靠TopsPrimo,它给用户提供了标准化模型、框架之外的另一种选择,即自行通过编程来优化操作。

最后在SDK层之下,是与硬件衔接的驱动层。

由此,燧原打造出训练推理的整体解决方案。云燧i10与云燧T10以及“驭算TopsRider”软件平台搭配,可实现算法模型在数据中心训推一体化的快速生产部署。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

四、火力配置均匀,向着目标进发

张亚林告诉智东西,燧原的云端训练和推理产品路线图已经规划到三年以后,其团队正精准地按照这一路线图执行。

这种“精准”的执行力,源自燧原“使命必达”的精神底蕴。

以研发云燧i10为例,朝向在2020年12月31日完成量产的目标,燧原从今年3月启动在方案、架构和软件开发上的技术优化,早期受疫情限制主要集中于内部的远程开发,从5月起全面转向系统集成开发和和测试。

得益于燧原从一开始就建立了远程工作机制,早早搭建完善的内部集群环境,能支撑数百人的多团队从多个地域并行开发。即便遭逢疫情,燧原的云端训练产品落地和云端推理产品研发进度均未受到影响。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”▲燧原云端推理计算卡“云燧i10”

为了提升能效比,燧原团队决定在云端推理计算卡上采用动态调频调压(DVFS)技术,始终在设定的条件内跑最高的电压和频率,这一技术对精确度的要求非常高。

顶着让板卡实现30天全负荷工作不死机、不过热的巨大压力,从10月开始,量产团队在燧原实验室中连续一个月全负荷紧急攻关调试,每个人都背负着巨大的责任感,将工作任务严格控制到每一天,1个月后板卡顺利通过抗压测试。

除了系统量产团队外,在产品研发方面,燧原还有其他三个主要团队,分别是芯片团队、软件团队以及客户解决方案团队。在燧原文化的驱动下,这四个团队紧密协同,实现了燧原从项目伊始到整个大系统量产的高效执行力。

其中,研发人员是燧原团队的主力军,占总员工人数的近90%。除了重视研发外,面向客户服务的员工数量也在持续增长。

如今,燧原已建立了全建制的商务和研发部门,包括产品市场、商务销售、客户方案及供应链等部门,更好地为客户提供服务。

张亚林认为,在企业初创阶段,需要一些非常资深的人来把控产品和落地等方向,但随着团队逐步扩张,芯片公司就像一个火力配置均匀的集团军,有各种兵种,包括做验证的、做设计的、做架构设计的等等。

“我不认为一个公司全是「特种兵」”,张亚林特别提到,这不是有效的组织结构,当一个公司达到某一阶段,就需要实现“火力均衡配置、各种兵种互相协同高效运作的组织”。

五、云端AI推理芯片将呈现爆炸式增长

尽量CPU仍占据最多的云端推理市场,但张亚林认为,这是因为推理市场还未完全蓬勃发展起来,并不妨碍未来云端AI推理芯片的成长。

此前因模型基础量不够大,很多推理还在做轻量化,加上端云之间的延迟很大,导致网络传输速度严重掣肘了云端推理的应用。

而从近年数据来看,在中国云端推理市场,AI处理器所占份额从2017年的0%逐步攀升至2019年的1.5%。

挺进云端AI训练&推理双赛道!独家对话燧原科技COO张亚林:揭秘超高效率背后的“内功”

尤其在今年,推理市场增速明显。

首先是场景的发展,中国互联网场景非常多样化,在信息安全、语音、NLP、短视频等方面有越来越多的推理需求,应用场景日趋丰富。

其次是网络的发展,5G的兴起打破了端云之间的延迟限制,让云端多用户并发性变得非常广泛,将网络延迟降到最低,这样一来,云端算力就变成了关键瓶颈。

因此,张亚林预计,随着应用场景泛化以及5G的普及,AI处理器一定会在云端推理市场呈现爆炸式增长。

六、商业成功是检验技术创新的唯一标准

什么才算真正的技术创新?

前段时间,中国工程院院士吴汉明在题为《“中国芯”呼唤产业导向的技术支持》的演讲中指出,商业成功是检验技术创新的唯一标准。

张亚林对此非常认同,当我们还在谈论芯片架构创新,英伟达及其他云端头部公司已将着眼点放置于全系统的创新,而芯片只是其中很小的一部分。

“燧原的目的一直是算力普惠,这句话并不是空谈。”张亚林说,燧原在软件、硬件、系统、客户定制化方案全面铺开,通过打造高性价比的算力,真正为客户创造价值。

在他看来,开拓型创新是有前提条件的,只有通过逐步了解市场,提高客户黏性、构建生态到一定程度时,创新才是有说服力的。

要达到这个前提的根本,是通过不断产品迭代,在算力性价比、客户支持极致性上做文章,这样才能积累起一定的客户黏性。

“所以抛开市场价值、客户黏性、生态壁垒去谈创新,就是无本之木、无源之水。”张亚林说。

结语:不讲故事,只讲客户价值

截至现在,燧原科技的云端AI芯片生态已经覆盖“邃思”通用人工智能芯片、云端训练加速卡“云燧T10”、云端推理加速卡“云燧i10”以及“驭算”软件全栈平台。

在张亚林看来,中国公司做数据中心是大趋势,而中国数据中心的体量完全能容纳更多的头部玩家,市场也需要“百花齐放”,同时燧原将坚持通过高执行力和工程化为客户提供价值。

“我们是一家以技术驱动,为客户创造价值的公司。”他提到燧原已经走在商业化落地的路上,“明年公司愿景是实现更大规模的商业落地,建立我们的产品生态和护城河,为客户提供更多更完整的产品解决方案。”

在后续的产品迭代中,燧原计划持续满足客户更多的需求。随着生态打磨和业务泛化,燧原给自己定的目标是将客户从其他产品迁移到燧原产品的时间压缩在一周之内。

除了总部位于上海外,燧原科技已在北京和深圳设有研发中心。张亚林说,未来他们还希望能够布局一些内地和沿海省市。

“人才在哪儿,研发中心就放在哪儿。”张亚林希望通过远程管理和高效组织,未来燧原能够吸纳更多的人才。