颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

智东西(公众号:zhidxcom)
文 | 心缘

架构创新正成为新风口,而新兴势力在其中扮演着至关重要的角色。

传统芯片遵循冯·诺依曼架构,处理器和存储相互分离,在承担AI推理运算时,数据要在硬盘、主存、计算单元之间搬来搬去,90%以上的能量损耗于这一过程中。

为了突破传统架构对算力的掣肘,存算一体这种新兴逻辑架构应运而生。其常见实现方式有两种,一是在内存和固态硬盘芯片中植入计算单元,另一种则是在直接用存储单元完成计算任务。

2016年,一对北大微电子系85后夫妻,在留美期间积累了基于NOR Flash的存算一体AI芯片研发经验,并早早定下回国创业的想法。

就在今年8月6日,他们所创办的知存科技宣布了近亿元A轮融资。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲知存科技创始人兼CEO王绍迪展示知存科技的存算一体AI芯片

近日,智东西同知存科技创始人兼CEO王绍迪聊了聊创业背后的故事,从创业想法萌芽阶段的无人问津,到创业5个月完成流片,再到即将迎来第一批产品的落地,他们正在离三年内卖出5000万颗芯片的“中期目标”越来越近。

一、从游戏中孵出的芯片情结

23年前,王绍迪8岁,父母为他买了一台搭载英特尔奔腾一代CPU的586电脑。那时候一台586电脑售价八千多元,花费了他父母将近一年的工资。

奔腾(Pentium)这个跨时代的产品,不仅开辟了英特尔一统CPU市场的盛世王朝,也在王绍迪心中埋下做芯片的种子。
小学期间的王绍迪,主要还是用电脑来玩游戏。在这一过程中,他直观感受到摩尔定律带来的变化,计算机变革飞速,CPU速度、光驱速度、软盘速度、硬盘内存大小等都日新月异。

很快,586电脑已经跟不上游戏速度,家里的电脑配置逐渐升级,每隔两三年换一代。2000年左右,为了玩雷神之锤等3D效果好的游戏,王绍迪开始接触GPU。渐渐地,王绍迪开始对芯片非常着迷。

经过高中物理竞赛,高三上半学期,王绍迪被保送北大。在接受当地辽沈晚报采访时,他即坚定地表达了自己的爱好和志向,希望进修微电子专业,成为“中国芯”的研发人员之一。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲辽沈晚报专访王绍迪(图右)

二、结缘存算一体,师从学术大牛

知存科技关于存算一体芯片技术的根基,来源于王绍迪的妻子郭昕婕,她是第一批从事存算一体AI芯片研究的博士生。
尽管王绍迪和郭昕婕都是2011届信息科学技术学院微电子专业的应届生,但由于北大教学很重视基础,前两年上的都是理论课那种大课,两人直到大三才相识。

到大四申请出国留学时,两人关于学校的一个重要筛选标准就三个字——离得近。
一般同学申请十几所学校,他们则一连申请三十多个学校,还特意按着美国地图看,就是为了能申请到同一个或者离得近的学校。最终,王绍迪申请到的加州大学洛杉矶分校(UCLA),和郭昕婕申请到的加州大学圣塔芭芭拉分校(UCSB),相隔不过100英里。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

说起来,郭昕婕此后研究存算一体芯片所跟随的导师,还是王绍迪在拿到几个offer后,帮她向导师写信申请的。
郭昕婕的导师Dmitri B.Strukov教授是做存算一体的学术大牛。

2008年,惠普实验室(HP Labs)证实了37年前的科学预言,发现世界上第四种基本电路元件——忆阻器(memristor),并成功实现了世界首个能工作的忆阻器原型,这项研究在《Nature》上发表《寻获下落不明的忆阻器》,而Dmitri B.Strukov正是这一团队的核心成员之一。此后,忆阻器、存算一体这些研究陆续如火如荼地开展。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲HP Labs忆阻器团队,从左到右分别是Dmitri Strukov, Stan Willams, Duncan Stewart, Greg Snider

2011年,即毕业那年,王绍迪和郭昕婕提交申请,同样在这一年,Dmitri B.Strukov准备申请存算一体项目,次年郭昕婕就成为了第一批被招收的学生,被分到基于NOR Flash的存算一体芯片技术方向。

Dmitri B.Strukov告诉她,这个方向是最接近产业化的、实用的方向,Flash技术成熟,已经商用几十年,成本很低,但其缺点同样是因为Flash研究起步较早,不好在顶刊上发文章。

立项初期,深度学习还不火,郭昕婕主要将存算一体芯片应用在视频处理矩阵乘法,到2013年,深度学习的热度席卷学术界,发现存算一体芯片运算深度学习效果好后,在导师的支持下,郭昕婕直接转方向到做深度学习芯片。
历经6次流片,耗时4年,郭昕婕终于在2016年研发出全球第一个3层神经网络的浮栅存算一体深度学习芯片技术,并完成技术验证。一年后,她又再度攻下7层神经网络的浮栅存算一体深度学习芯片。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

▲郭昕婕在IEEE电子器件大会(IEDM 2017)上发表的论文

存算一体以存储器和模拟单元为主,Flash存储阵列经优化改造后,既可以容纳更多神经网络的权重参数,又可以完成和此权重相关的模拟计算。据王绍迪介绍,理论上,单个Flash单元可完成8bit乘加法运算,假设有200M个Flash单元,就能存储2亿个参数,同时能并行完成2亿次乘加法运算。实际运行时,算力约为峰值的10%-50%,由于芯片具备一定通用性,并非完全针对某一算法定制,AI算法在芯片无法达到100%的利用率。

在王绍迪看来,存算一体芯片的核心优势有三点。

其一,存储单元可用于计算,运算中无需数据搬运,运算单元数量可提升多个数量级。

其二,无需独立计算单元,这样既节省了片上并行计算单元的面积消耗,同时不用过于追求最先进的芯片加工工艺,而是可以使用成熟工艺来降低成本。

其三,架构中无需考虑内存搬运,大幅降低多核AI芯片的设计难度。

三、投石无路,艰难的创业起步

从郭昕婕的研究中,王绍迪看到了端侧AI芯片商用落地的价值,回国创业的想法在心中萌芽。然而创业的热情燃烧正旺,突然就被现实的冷水浇熄,他在说服别人投资的路上屡屡碰壁。

2016年年中,王绍迪在中美两处寻找投资人。

彼时美国主流观点认为端侧不需要AI,只有服务器端深度学习做训练的需求才较大。王绍迪因在三星和Arm实习,便尝试联系这两家公司做存储器的相关负责人,但他们认为王绍迪提出的方案找不到应用场景。

在美国没得到正面反馈,王绍迪托人回国询问却也无果。

当时他看中的市场是缺乏高效端侧算力的AR市场,而这一时期,国内的AR刚走过高速发展的黄金时期,市场开始疲软下滑,王绍迪也没能建立什么有效的联系。

时机没到,就再等等,王绍迪留在美国继续从事博士后研究工作,很快,希望再次来临。

2016年9月,英特尔宣布收购视觉处理芯片创企Movidius,直接填补其在物联网领域的技术短板。伴随着这一收购案的推进,终端侧AI芯片逐渐兴起。从2017年年中开始,王绍迪每个月回国一次找融资,另外一位合伙人也一直在国内帮着找各投资机构去聊。因为存算一体芯片仍然非常小众,找融资的历程进行的十分艰难。

终于,在一位北航教授的帮忙联系下,启迪之星、兆易创新的投资人在和王绍迪聊过后伸出了橄榄枝,说可以投资。
得到这一口头承诺,王绍迪立刻飞往美国打包行李,把车一卖,提前谈好做存算一体芯片所需的知识产权授权,不到一个月就返回祖国,于2017年10月在北京创办知存科技,王绍迪任CEO,郭昕婕任CTO。

四、创业初期的摸索

成立初期的知存科技可谓是一穷二白,融资难、缺人才、没经验。

考虑到携带资料日后可能有风险,王绍迪和妻子郭昕婕回国时基本上都两手空空。

一开始,知存科技只有王绍迪、郭昕婕和他们的合伙人三个人,租了一个四人的小办公室,还多出一个工位。

三个人都是学术圈出身,余下的那个工位自然是要留给一个有做模拟芯片经验的专业人士,后来他们花了很大精力才请来一位具有15年模拟芯片研发经验的老兵作为知存科技如今的模拟芯片研发负责人。

于是,到2018年春节,知存的小团队成功涨到4个人。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

创业期间的节奏比学术研究期间快得多,企业规划、运营管理和产业经验都要经持续学习和积累。从创业至今,王绍迪每周上班时间超过100小时,有一周甚至只睡了不足28小时。

因为在学术研究期间,郭昕婕几乎踩过各种芯片设计的坑,这也使得知存在成立后的短短5个月内就快速流片。
2018年初,知存的扩张速度堪比“龟速”,3月5个人,4月6个人,5月7个人,流片前才终于突破个位数,达到10个人。熬过缺乏资金的创业初期,团队扩张速度逐步加快。

当前知存已经凝聚了一支经验和能力兼备的55人团队,其中,模拟芯片设计团队人数也增至近11人,团队平均工作经验达9年。此外,王绍迪还表示,今年知存科技还将再招5人左右。

融资方面,知存科技已于2018年1月获得启迪之星等投资的天使轮融资,同年12月获讯飞领投的天使+轮融资,今年8月获得近亿元A轮融资,由中芯聚源领投,普华资本、招商局创投、三峡鑫泰、科讯创投、燕缘雄芯跟投。

专利方面,知存科技申请了40多项专利,并购买了郭昕婕早期在国外研发期间所发明的专利授权。

颠覆传统芯片架构,用闪存做AI推理,这家创企要造不一样的语音芯片

知存的核心产品MemCore001是基于NOR Flash存算一体架构的嵌入式智能语音芯片,主要应用于低功耗、低成本的端侧语音识别,支持8-bit DNN、LSTM、TDNN等多种常用网络,支持可变运算和参数精度。

据王绍迪介绍,算力依据应用需求而定,市面上的芯片算力从1Mops到100Gops都有。知存即将发布3款存算一体芯片产品,功耗和成本和市面上10Mops的芯片相当,算力为10Gops。

相比当下基于冯·诺依曼架构的AI芯片,知存科技的存算一体芯片能将运算效率提升20-50倍,现有运算效率达15TOPS/W,成本也比常规AI芯片降低30-90%,针对不同应用的成本在几十美分到几美元。

五、泡沫化很正常,落地难只是暂时现象

随着AI需求的演进,知存会对芯片内部相应优化,通过调整设计架构,使其更好地支持现有网络支持,可配置性更多,对新型网络效率更高,整体芯片面积也变得更小。

存算一体毕竟是一个创新芯片架构,缺乏成熟的EDA工具、测试工具和应用层适配软件,量产步骤还够不成熟。不同于传统芯片直接将量产步骤交由晶圆厂来完成,存算一体芯片的量产步骤需要芯片设计公司和晶圆厂一起来探索和建立。
在语音芯片落地后,未来,知存还计划研发低成本、低功耗的视觉处理芯片。

而王绍迪他们之所以暂不考虑云端,是因为软件SDK开发的投入太大,这对一家初创公司来说将是很大负担。Flash存在读写偏慢的缺点,如果以后有更出色且成熟的存储器,他们也会考虑用其替代Flash。

对于AI产业热议的泡沫化以及AI芯片落地难、量产难等问题,王绍迪也分享了他的观察和思考。

他认为,像大多数快速发展的行业一样,AI也有泡沫,但这并非因为AI没有价值,而是因为还没找到好的商业模式,当前的授权等商业模式利润不高。

在他看来,AI芯片落地难只是暂时的,AI芯片的作用是帮助AI更好的落地。从过去的发展来看,提供更高的算力可以帮助更多的算法落地到应用,降低成本和功耗可以帮助AI拓展更多的应用场景。因此做算力更大的AI芯片和更低成本的AI芯片都可以帮助AI落地。当前AI芯片落地难因为AI应用还不是一个成熟的市场,没有成熟的产品形态。AI芯片和AI一样都在摸索中发展,逐渐落地更多的应用。

而关于AI芯片量产难的问题,王绍迪认为有多个原因。

一是AI产品新,产品需求和功能一直在变化,没有成熟的产品形态。很多芯片做了很长时间design in,遇到产品需求突然变化,造成了芯片无法量产。这也是因为AI产品和算法更新换代快所导致的,选错了应用或者功能设计错了的芯片没法量产。

二是某些大算力AI芯片需要很好的算法适用性,研发周期长投入大从业人才少。

三是新型架构的AI芯片,像是存算一体芯片,没有成熟的方案可以采用,需要开发新的量产方案。

结语

相比那些在芯片行业摸爬滚打多年的老兵,王绍迪等从学术圈走出的创业者们相对缺乏创业经验和工程经验。尤其是在开辟一条蹊径之时,可能需经过各种试错、磨合、迷茫和思路转换。

但同时,他们也拥有更加蓬勃的朝气,坚定而无畏地追求创新,勇于冒险,敢于跳进造芯的洪流之中,注入一抹不一样的色彩。

诚然,云端市场巨头环伺,终端市场亦是强手如林,留给创企的机会有,真正做到突围也很难。AI芯片产业的规律还需经历漫长的考验,而更多带着各类创业者的涌入,势必会为整个产业创造更多的可能性。

在政府、投资方、孵化器等机构的帮助下,也许下一个破局者已经在成长之中。