清华系芯片老兵创业专攻GPGPU!抢占国内空白

智东西(公众号:zhidxcom)
文 | 心缘

导语:“AI芯片”这个新鲜的概念在过去一年间逐渐走过了普及的阶段,越来越被大众所熟知。在行业走过野蛮生长,开始加速落地、加速整合的过程中,也有更多的AI芯片公司也开始走出属于自己的差异化路线。

智东西在此前AI芯片系列报道第一季之后,再次出发,进一步对AI芯片全产业链上下近百间核心企业进行差异化的深度追踪报道。此为智东西AI芯片产业系列报道第二季之一。

说到通用AI芯片,没有人会忽略英伟达。

凭借GPU的超强并行处理能力,英伟达搭上人工智能(AI)的高速列车,在近几年疯狂进击,市值飙升十几倍,在数据中心AI芯片领域所向披靡,成为难以撼动的云端AI霸主。

算力的爆发为AI技术提供加速发展和落地的基石,炙手可热的AI市场催生出国内外一批新兴的AI芯片创企。

前有英伟达、英特尔这些芯片巨头雄霸云端AI市场,绝大多数AI芯片创企都选择避其锋芒,专攻终端AI专用芯片领域。

不过,有一家名为“登临科技”的创企眼光相当独到,瞄准的是如今正被英伟达控场的GPGPU。GPGPU全称General Purpose Computing on Graphics Processing Unit ,即能够进行通用计算的图形处理器(GPU),它将GPU的应用范围扩展到了图形之外,在科研教育、财务计算、工业等各种领域的大规模并行计算中都得到了广泛的使用。

目前在全球范围内,实现GPGPU大规模落地商用的唯有英伟达,国内在这一领域的缺口还很明显,但已有几位玩家在往这方面努力研发。

清华系芯片老兵创业专攻GPGPU!抢占国内空白

▲登临科技创始人兼CEO李建文

在一个温暖的早晨,智东西和登临科技创始人兼CEO李建文聊了聊,看这位在GPU领域深耕二三十年的行业老兵,如何带领团队研发兼顾通用性和高效率的创新GPGPU架构,朝着“成为中国的英伟达”的愿景进发。

一、GPU老兵创业一年半,十几项专利已在手

作为AI发展的中流砥柱,AI底层硬件的机会无疑是极为广阔的,但放眼望去,全世界云端AI训练的绝大多数解决方案都由美国公司英伟达提供。

高性能处理器的设计面临着复杂度高、技术难度大、技术壁垒深等诸多挑战,是集成电路设计领域中的关键领域,相关人才储备非常有限,即使在聚集众多IC精英的美国硅谷也属稀缺。

李建文本科就读于清华大学微电子所,于1990年在清华无线电系无线电系线路教研组获得硕士学位。

早在2017年,李建文就开始思考,我们为什么不造中国人自己的服务器AI芯片呢?

这一想法,成为李建文创办登临科技的萌芽。

在成立登临科技之前,李建文在GPU领域已有二三十年的从业经历。他曾在图芯科技(2004年创立)担任副总裁,由他负责的GPU/GPGPU IP产品,曾被卖给飞思卡尔、英特尔、美满、谷歌、三星、诺基亚、大华等著名半导体和科技公司。

起初李建文也曾被谷歌TPU吸引,想要在专用AI芯片方面小试牛刀。但在北极光创投做顾问的期间,通过和多方业内人士交流,李建文发现面对快速演化的算法和不断涌现的新的应用的出现,类似于谷歌TPU的专用AI芯片不具备市场需要的通用性,可能等投入大量资金和时间做出芯片后,市场已经不再需要这个东西了。

在看到了专用AI芯片的瓶颈后,基于自己长年积累的行业经验,李建文决心在以GPGPU为核心的异构通用计算平台构建上有所建树,要做比英伟达性能表现更出色的GPGPU解决方案。

2017年11月,李建文在上海成立登临科技,由知名的高科技风险投资机构“北极光”创投孵化,已经分别在2017年底和2018年上半年完成天使轮和Pre-A轮融资,融资金额共计约1.5亿人民币。

登临科技的核心创始团队共有8人,其中七个人都是长期深耕于GPU领域,还有一人在网络处理器方面经验丰富。

据李建文介绍,其他成员分别有在图芯、英伟达、AMD、思科、Acacia等世界知名的半导体、系统和互联网公司任职多年的经历。每个成员不仅拥有20余年的高技术行业从业经验,有在从28nm到7nm先进工艺上成功流片及批量生产的业绩,而且全面覆盖并行处理器系统架构、软硬件、核心IP、处理器验证平台搭建,及整体SoC芯片的开发。

经过一年半的发展,如今登临公司约有60人,其中绝大多数成员的学历背景至少为硕士毕业,工作经验不少于七八年、行业经验非常丰富。目前,登临科技已经获得的十几项专利,还有数十项核心专利正在国内外申请中。

二、软硬件结合创新GPGPU,今年年底交付客户使用

有英伟达GPGPU珠玉在前,一家新创公司如果想让自己的产品得到市场的认可,通常会选择降价,少挣点钱。

但李建文想做的不仅于此,他希望能做点不一样的东西,既能继承英伟达的优点,在通用性方面和英伟达GPU一样好,同时在技术方面有所创新,使得计算密度更高,效率进一步提升,对外部带宽的需求大幅度降低。

在人们的传统认知中,英伟达的GPGPU核心主要是面向图形加速和高性能计算,但为了兼顾所有这些应用的特征,他的硬件结构是固定的,执行的模式基于指令集,存储是基于传统冯·诺依曼架构的中心化数据存储,这些在一定程度上都限制了硬件的效率,对AI应用而言并非最优解。

于是,李建文选择在系统架构设计上,采用软硬件协同设计的概念,来专门解决兼顾AI计算通用性和高效率的难题。

与其它厂商提供定制化专用AI处理芯片不同, 登临科技自主创新的“登临-Minsky”体系结构(软件定义的异构AI计算平台)在架构设计上具备更高的灵活性。

软件能预测到客户的最终应用,通过在较高的应用层次上做特征分析,让包括流水线、控制模型、存储模型在内的各种硬件设计,根据任务的特征做整体的优化。

通过这种架构创新,登临科技可以将AI处理器硬件的计算密度和计算效率做到更高,将功耗和面积做到更低,同时对带宽的要求也低很多。

“原来就好比左手做完事情后再把任务交给右手去做,而软硬件协同的做法就是两个手一起协作处理。”李建文生动地比喻道。

据他介绍,相比英伟达最新一代主流产品Tesla V100和Tesla T4,登临科技的产品在更低成本的成熟工艺和缩小芯片50%以上面积的基础上,将性能提高5-10倍。

清华系芯片老兵创业专攻GPGPU!抢占国内空白

与此同时,新创公司在还没有成长起来之前,直接自己重新创造一套软件生态是不现实的,因此李建文选择继承以英伟达为主体的生态,提供更优的解决方案。

李建文透露,目前登临科技核心的GPGPU处理器已通过FPGA验证,第一代产品Goldwasser的设计也已完成,正在进行流片前的全面验证,该产品计划在今年年底前可供客户测试使用。

三、创业公司需看清三个方向

李建文认为,对于新创公司来说,弄清三个方面非常重要:一个是市场,二是技术和产品路线,三是市场和技术方向要与团队能力相吻合。

首先,AI硬件市场正在飞速发展,这是大家都公认的事情。根据美国研究机构Tractica的报告,到2025年,云端AI芯片市场有望达到146亿美元。

这个时候,技术和产品路线的选择就显得尤为重要。由于当前AI算法迭代速度还很快,李建文觉得还没有到研发专用AI芯片冒的风险会比较大,相对而言,通用AI芯片的路线更为稳妥,可行性也更高。

而即便看到了市场的机会,又发现了有潜力的技术和产品方向,还需要具备擅长这一领域的能力。同样以登临为例,他们的绝大多数成员都在GPU领域拥有成熟的经验,并且从软硬件、IP到SoC均有专业技术能力过硬的从业者,因而具备快速解决问题和研发产品的能力。

此前随着AI芯片日趋火热,大批追风者涌入这一市场,然而随着资本市场趋于冷静,人们开始质疑这场狂欢的背后是否充斥着泡沫。

对于这一现象,李建文认为市场是有点过热,有些跳进去的人和资本低估了云端AI处理器的难度,但靠PPT是做不成芯片的,最终的赢家一定是能够对客户的想法有较为深刻的理解、做出真正解决客户核心问题的产品的人。

结语:大规模AI芯片落地潮还未到来

去年可以说国内外科技圈都卷入一场AI芯片的狂潮之中,既有传统半导体公司和AI芯片创企坚守阵地,又有各路云计算公司、AI算法公司、传统行业巨头跨界涌入,争相宣布自研AI芯片。

他们分别选择了不同的技术和产品路径,以满足数据中心、安防、语音等不同细分应用场景的需求。

根据此前各公司宣布的AI芯片计划来看,今明两年国内外将有多家AI芯片公司的产品陆续落地,从底层硬件到适配的解决方案,AI芯片领域的竞争将更加激烈。任何泡沫的破碎都将伴随着大批创企的消失,但大风吹过后,真正抓住市场刚需和解决客户问题的创企将会脱颖而出。