对话天数智芯CEO:GPGPU的国产化时代将至!

智东西(公众号:zhidxcom)
文 | 心缘

导语:“AI芯片”这个新鲜的概念在过去一年间逐渐走过了普及的阶段,越来越被大众所熟知。在行业走过野蛮生长,开始加速落地、加速整合的过程中,也有更多的AI芯片公司也开始走出属于自己的差异化路线。

智东西在此前AI芯片系列报道第一季之后,再次出发,进一步对AI芯片全产业链上下近百间核心企业进行差异化的深度追踪报道。此为智东西AI芯片产业系列报道第二季之一。

众所周知,人工智能(AI)有三大支柱:数据、算法和算力,其中算力正是芯片巨头和芯片创企们角逐的核心战场。尽管近年来,AI芯片战场逐渐呈现百家争鸣之貌,但在云端AI芯片领域,NVIDIA仍是绝对的王者。

NVIDIA是将图形处理器(GPU)带到通用计算领域的先驱,其通用GPU(GPGPU)凭借并行计算的优势和完整强大的通用并行计算架构CUDA几乎垄断云端训练芯片市场。挑战者也在出现,国内有一家名为天数智芯的公司,近期披露了系列芯片产品推出的时间表,意欲填补通用并行计算芯片的空白。

虽说天数智芯和NVIDIA同样在做通用GPU,但不同于多数AI芯片创企,天数智芯并非一创业就闷头造芯,而是先切入软件层打造AI系统。颇让人意外的是,在创业之前,其创始人、董事长兼CEO李云鹏并无芯片背景。

李云鹏的理想非常远大,对公司的定位是系统级公司,而非对标NVIDIA。

近日,智东西与天数智芯创始人、董事长兼CEO李云鹏进行了一场深入对话。在交流过程中,我们发现李云鹏是一位非常善于思考的人,对于公司定位和布局、产品技术逻辑、以及创业公司的打法都有着独到的见解。

对话天数智芯CEO:GPGPU的国产化时代将至!

一、10年甲骨文老兵回国创业

李云鹏是南京大学计算机系2002级毕业生,2005年获得美国威斯康辛州大学麦迪逊校区计算机硕士学位。

他毕业后的第一份工作在甲骨文,时间跨度长达10年。起初,李云鹏在甲骨文从事数据库基础软件相关设计研发和技术管理工作,后任职甲骨文核心数据库部门技术总监。在工作过程中,他意识到大数据、云计算、人工智能(AI)等新兴技术所带来的市场空间,而国内的软硬件基础设施相对薄弱,一个做AI基础软硬件系统的想法逐渐成型。

在与发小赵汇讨论多年后,2015年12月,李云鹏回国创立了南京天数智芯科技有限公司。

经过3年半的发展,如今天数智芯已拥有300多位员工。其技术团队来自世界知名芯片公司AMD的GPU部门和企业软件翘楚Oracle、Fujitsu,主要分为软件平台团队(Software Platform Team)、AI团队(AI Team)、芯片设计团队(Hardware Team)和将前三个团队的需求、反馈等串联起来的研究团队(Research Team)。

对话天数智芯CEO:GPGPU的国产化时代将至!

其芯片设计团队,已在芯片设计领域积累了近三十年经验,是一支国内最优秀、最完善的高端芯片设计队伍。

比如天数智芯一位负责芯片设计的副总裁,就是一位高端计算芯片设计专家,拥有近30年的处理器、微处理器、GPU研发和管理经验。在近15年内,他主导参与了AMD所有服务器、GPU,APU产品的IP设计,包括最新7nm EPYC和7nm GPU产品。

二、三年磨AI软件,定位系统级公司

在任何一个领域创业,越往上头走,越容易碎片化;越往下沉走,就巨头林立。李云鹏意识到,如何选择创业切入领域对于创企而言是非常关键的问题。

李云鹏将天数智芯定义为一家系统级公司,而非NVIDIA。这是因为每一个成功的系统级公司市值都是NVIDIA的若干倍。但从这个意义上来说,系统公司创业难度也会非常大。

纵观过去十年,中国互联网企业蓬勃发展,中国已经有了TMT(Technology,Media,Telecom)领域建高楼的水平,也出现了几家世界级“高楼”。但传统领域为何没有这类显著的化学反应呢?问题在于我们的基础还是比较薄弱,比如说在开发工具方面就没有能支撑这么大产业的成熟基础设施。而且大部分公司也不具备对底层进行优化的能力。

所以天数智芯从中间件开始做,希望打造底层的系统技术服务能力,服务这些商业客户,给他们赋能。选择底层的另一个原因,是天数智芯认为中国需要一个很清晰明白商业界限的产品技术服务类底层企业,能够和客户保持商业距离,合作共赢。这也是天数智芯选择要做基础的一个核心考虑。所以从2015年成立到2017年第三季度前,天数智芯都在做一件事——软件。

作为一家创业公司,考虑到资金体量、技术实力等客观因素,自建生态是不现实的。所以,天数智芯选择了兼容市场开源生态与已有成熟生态。具体在技术开发逻辑方面,天数智芯从软件算力切入,即用软件提升已有硬件的平均算力。换句话说,天数智芯的中间件产品可以和市场上已有的任何一款开源计算框架完美配合,使得硬件处理器获得更高的处理效率。同时,随着中间件的推出和上层应用的不断落地,天数智芯推出相应的芯片产品,为已有的硬件产品和系统解决方案提供平滑、透明的迁移。

对话天数智芯CEO:GPGPU的国产化时代将至!
▲软硬件协同设计

李云鹏认为,AI如果要真正商业化和市场化,单点突破是不够的,关键是如何与产业相结合。天数智芯选择了软硬件协同来打造良性生态,真正发挥软硬件叠加带来的乘法效应,实现短期收益和长期增长的平衡。

AI落地应用场景趋于碎片化,数据量庞大,国内企业在安防等领域又走在世界最前端,如果创企从这个领域去竞争是有难度的。李云鹏看到的市场在云端,目标客户是需求稳定的大型企业,而具备智能化转型条件的企业主要分布在四个方面:互联网、金融、制造业和医疗。

李云鹏瞄准了大型装备制造行业,包括轨道交通、风电、石油天然气等。尤其是轨道交通,这一领域拥有数量充足的传感器设备和复杂的数据源,也有对安全运营的强烈需求。这是一个具体且足够大的市场,对数曲线系数非常大,能够为他们的产品迭代带来反馈。

“如果我们在这个行业内能够证明我们的底层软件可以达到满足他的生产应用场景需求,我们的芯片能够符合他的需求,那么我们就具备了跨行业推广的能力,比如航空航天。”李云鹏说。

三、打造高中低端通用芯片,实现硬件透明替换

在说起为什么又带领团队拓展了造芯之路时,李云鹏用开赛车来比喻这一决定的出发点:“当我开一款赛车能够开到250km/h的时候,发现另一款赛车可以开350km/h,但是又贵又不好用,不如我自己做一个又快又好用且性价比高的赛车。”

对话天数智芯CEO:GPGPU的国产化时代将至!

近些年,AI飞速发展带来了弯道超车的可能,许多在海外从事基础软硬件产品研发的工程师们对中国存在的新机会动了心,李云鹏向他们提供了一条实际可执行的路径:通过软件中间件的方式,抓住了客户生态的最关键一环,然后再继续往下拓展,填补半导体本身与最终客户之间的距离,为国产化硬件无缝替代提供基础。

这种方法不仅可以马上带来性能的提升,而且能够做到“透明替换”,即更换后端硬件对于客户来说是无缝迁移的,上层应用不会做任何的改变,不会让客户增加任何成本。

对话天数智芯CEO:GPGPU的国产化时代将至!

2017年底,天数智芯的芯片队伍正式起航。以AMD在美国和上海做Graphics GPU的核心团队为基础,共有100多人。

天数智芯打造的GPGPU芯片可定义为一个通用的标准化超大规模并行计算芯片,产品线覆盖到高中低端,既可以为AI应用提供算力支撑,也能加速数据库计算、统计计算等和神经网络无关的计算。

李云鹏告诉智东西,其芯片的一大亮点在于填补通用并行计算的空白,除了NVIDIA和AMD之外,鲜有创业公司在做此类产品。

天数智芯高端计算芯片Big Island,对标NVIDIA Tesla V100。是基于GPGPU架构的云端高性能通用计算芯片,应用于云端AI训练、云端AI推理和云端HPC通用计算。

Big Island有五大优势:全方位生态兼容、高性能有效算力、指令集编程架构、软硬件全栈支持、全自主知识产权(IP)。该芯片采用多层次缓存架构和超高带宽存储子系统,能提供服务器级可靠性。

对话天数智芯CEO:GPGPU的国产化时代将至!

在软件方面,Big Island有四个主要特征:

1、通用:统一接口支持通用计算和深度学习神经网络

2、高效:深度优化的编译器和库函数,深度挖掘硬件性能

3、标准:兼容主流异构计算框架和AI开发框架

4、自动:自动网络优化和完整的SDK工具链

对话天数智芯CEO:GPGPU的国产化时代将至!

同时,天数智芯打造了面向边缘端的EPU,对标NVIDIA TX2。这是一款基于卷积神经网络(CNN)的高性能边缘端AI推理加速芯片,采用16nm制程工艺,主打以视频识别类的设备端AI加速器解决方案市场,已有其FPGA模拟,目前正在流片封测中。

这款芯片具备一定的通用性,可用在装备制造领域,包括轨道交通的一些实验、风电领域安全监控、石油天然气大型炼油厂的安全设备监控等落地场景。

四、国内芯片人才足矣,只是缺乏产业环境

健康人才梯度是一个企业能够长足发展的重要条件。对此,李云鹏也有自己的思考。

在芯片产业,比如AMD这样的企业,大多数的GPU芯片实现的工作都是在上海完成。从这一点上来说,技术人才未必都要具备海外留学的背景,现有各大电子系的毕业生同样具备这个能力。李云鹏认为,我国的芯片人才是足够的,只是学校学的东西和业内做的内容毕竟是有差异,缺乏一个企业化的产业环境来培养。人才荒的现象是暂时的,把已有的人才用好更为重要。

在天数智芯的人才金字塔里,顶层是业界顶尖的专家,代表技术的领先性;中高端是以AMD在美国和上海的Graphics GPU核心团队;在金字塔的底层基于国内现有人才环境,弥补相应的人才。目前,天数智芯的芯片设计团队既有一批行业经验超过20年的世界级技术专家,也有一大批高执行力5至15年业界经验的技术精英,团队成熟而完整。

在AI方面,高端AI软件人才缺口依然很大,但现在在国家政策支持下,从初高中就开始普及AI教育,如果能持续下去,李云鹏相信在可预见的未来,AI人才会有一个爆发的现象。

五、创业的六字心经和核心要素

李云鹏将创业公司发展的关键概括为六个字:聚焦、借力、迭代。

聚焦指的是广义上的聚焦,不能够以单纯的软件思维或硬件思维来看待,因为两者的叠加是一个乘法效应,如果能够巧妙这一效应,就有望达到十倍的效果。

借力过程更是非常关键,创业公司人数和精力有限,需要借用已有生态的力来发展。

迭代是一个产品能够真正落地成功或被广泛接受的关键。天数智芯的产品既有内迭代,也有在客户处的直接迭代。

他认为,创业是一个做起来、钻进去的过程,没有信心去支撑、没有初心去引导、没有市场的正面反馈、没有资金的支持、没有大环境的发展是很难成事的。

从技术者向创业者转型,是一个很痛苦的蜕变过程。李云鹏回忆道,刚开始创业时,因为讲的东西大家听不懂而感到迷茫,怎么根据客户、投资机构等受众的不同把自己要做的事情表达到位,这是对外的一个关键点。

最后,他总结了创业过程中发现的几个核心要素:把待人的心胸不断做大,这是创业者的基本素质;把识人的心思不断做密,这是创业者的基本能力;把行事的缜密做严,这是创业者的行事风格;前三点做好就能成功,把理想不断升华,决定是大成功还是小成功。

结语:AI芯片落地潮即将来临,生态建设问题依然严峻

过去一年,AI芯片创企们从秘密造芯的状态走出,对外揭开其芯片产品的“庐山真面目”。多数创企选择切入的是相对百舸争流的终端市场,少数玩家选择进军被美国半导体巨头们蚕食掉大半江山的云端,而像天数智芯这样选择做GPGPU芯片的玩家更是寥寥无几。

不过现阶段,在云端AI芯片市场真正实现大规模部署的玩家,唯有做GPGPU的NVIDIA。NVIDIA早早凭借强大的GPU+CUDA方案切入深度学习领域,用大笔研发投入和时间堆积起坚不可摧的生态城墙,而这恰恰是国内外其他玩家都相对薄弱的环节。

在创业初期,GPGPU创企们还需在CUDA生态的基础上来推广自己的芯片,但随着初代芯片陆续顺利落地,若想真正实现自主可控,打造完整的国产核心技术生态体系是必经之路。