智东西(公众号:zhidxcom)
文| 李水青
智东西7月29日报道,今天,旷视科技CEO印奇和CTO唐文斌同台分享了旷视科技的AI落地实践、技术进展。印奇表示,下半年会推出一款特殊的手机传感器,机器人家族和新的视频结构化硬件也会亮相,“希望今年年底之后,媒体叫我们最硬的AI公司!”
印奇和唐文斌都是清华“姚班”出身,平均年龄32岁,却是估值超40亿美元冲刺港股的AI独角兽的创始人。开场之初,印奇自我调侃,创业9年来自己和文斌从“简单幼稚的程序员”,变成了“简单幼稚的程序员的管理者”,今天是以“高考生答题”般的心态答一答“AI产业落地的路径实践”。唐文斌则从技术角度,带来了面向CV+的技术方面洞察和实践。
▲旷视科技CEO印奇(左),旷视科技CTO唐文斌(右)
在这场交流中,印奇不断用高考答题推导式的严密逻辑明确或澄清“AI是什么”、“AI产业面临什么”、“旷视科技是谁”等基本问题,试图以此降低大家对AI产业抱有的高期待,同时也隐隐显露出这家AI算法起家的独角兽老板的“AIoT”野心。
一、实体清单有影响,现金流充裕不着急IPO
会上,印奇和唐文斌对许多大家关注的热点问题进行了解答。
谈到许多人关心的IPO,印奇认为,上市代表几个点,首先是代表自信,旷视向来是以上市标准来审视自身的;然后,旷视把上市当成手段而不是目的,不光上了,还有上市之后的表现。旷视还是很年轻的,3~5年后会在哪自身心里也比较明确。目前旷视科技现金流充裕,上市不是特别亟需的东西,只是在稳步推进。
谈到去年被美国列入“实体名单”,印奇坦言,这件事情对中国所有的科技企业都是有影响的,不过对旷视来说相对会好一些。因为AI里最核心的算法引擎旷视是完全自主的,这也是今年3月份提早做开源的原因。另外,从全供应链来看,有些芯片和模块我们需要做替代,但对AI企业至少对我们来说可能不是特别本质的问题。另外,它的影响是很综合的,包括对资本市场等各方面。
谈到新基建为旷视带来的机遇,印奇则表示,旷视很简单,云、管都和我没关系,我们就是希望在云管端的端上能够以应用为出发点。他还举了很喜欢的微软的例子——微软是有了office,才有windows。一个super App的诞生,也会推进软件、芯片等各层面的发展。
二、坚信“软件定义硬件”,聚焦1~2个产业做到100亿
当智东西问到,面对安防等行业友商,旷视如何发挥技术优势、弥补行业经验、渠道等短板?印奇很自信,首先他表示进入各行业后发现每个行业都有非常优秀的传统玩家,就会去跟他学习,跟他竞争,是良性循环。
然后他话锋一转说:“我们坚信是软件定义硬件,这不是软件+硬件,就像最近华为也在讲的“软件定义硬件”。为什么说自信?我认为如果我们是在正确道路上,核心能力也沿着这个道路不断加强,最后(还看)谁能掌握这个核心能力和核心要素。一个企业都有它的周期,旷视也有自身的周期。”
对此,唐文斌补充,我们去年在工业物联网方向上有非常大的一单Case,(竞标)几乎把这个行业所有的厂商都叫过去了像海选一样,一轮一轮搞了三四轮,最后选了我们。Why us?
“就像你说的道路自信,当时我们跟他讲了一句话,我们绝对不是这个行业里最有经验的厂商,但一定是进入到这个新的行业里最创新的,带着更强的技术意识的,而且有更强软件能力的厂商。我们要用更好的大脑去赋能这个场景,而这个大脑真的能给你这个场景带来不一样的价值,而这个价值可能是其他厂商所不能提供出来那么多的。”唐文斌说。
谈到未来五年后对旷视科技的期待,印奇坦言,旷视不会是一个像很多AI公司宣传的那样特别平台化的公司,而是会选择聚焦1~2个产业,逐步化扩展,将单体行业先做大比如到100亿元营收。平台化的公司比如BAT等平台有自己的立身之本,而作为旷视科技,目前也有明确的个人物联网、城市物联网、供应链物联网三大产品方向。
或许是这两位创始人先前实在很少同框,现场的提问环节几乎抢占了所有的眼球,不过回到印奇和唐文斌演讲的环节,也是有一些信息量的。演讲开场,印奇就毫无避讳地谈到了AI行业步入“死亡之谷”。
三、AI步入“死亡之谷”:算法供给、价值闭环、组织阵型三大难点
印奇用一个AI产业的发展Gartner曲线引入他的话题,他认为AI经过2016~2017年的快速爆发,已经进入产业的深水区,步入“死亡之谷”。当前是各界对AI的高预期向下回落的阶段,哪个AI企业能穿越这个死亡之谷很难预测。印奇感觉可能在18-24个月行之将半。
印奇接着强调了他笃信的一个概念,就是“AI小于IoT”。他认为互联网的下一个时代是物联网时代,AI更像当年的搜索引擎。所以,AI是物联网里一个核心技术算能力,是未来很长一段时间技术创新的主轴,但不是产业落地的核心点。
那么什么是产业落地的核心点?印奇步入主题,从三方面开始答题:
1、算法供给侧,AI企业做得不够
首先,大家讲到AI,很多事情都套上AI概念,但AI归根到底还是算法。大家没意识到,算法供给侧,还是人脸识别等老三样,AI企业做得远远不够。AI算法侧到底是极大的供给没有壁垒,还是它其实还在极度稀缺的阶段?
可以从两个要素来看:
(1)AI算法可交付。什么叫可交付?AI算法的应用有两个环节,第一个环节叫训练,第二个环节叫部署。其中,训练的工作只占20%,剩下80%的工作在于部署。一个团队训练100种算法,也不一定能交付,因为每个行业都是非常差异化、碎片化的。
(2)AI算法规模化。目前,AI算法依然成本高、周期长,不像软件一样想写就写,写完就用。尽管旷视已经有brain++,但印奇判断,当下算法供给能力不到应用需求的1%,目前是供应不足的。算法像整个物联网里的血液,血液如果供给不足会发现很多东西只是框架,只是骨骼。
基于以上两点,印奇推导出,在算法供给侧,AI企业做得还不够。
2、价值闭环是AI产业落地的最大挑战
价值闭环是近期的热词,可以拆解为产品和商业价值链两个维度。
首先是产品维度。
在互联网时代,产品应用就是PC或者手机上的Word、微信,那么在物联网时代,应用是什么?
不同于互联网时代,物联网需要选择一个空间,无论是家庭、仓库、城市还是楼宇,这个空间里会形成一张网。其中有很多计算AIoT中间计算节点,会连接很多传感器、机器人等设备。当这些硬件设备连接在一起时,上面就需要很强的软件连接所有这些东西,贯穿云边端,最后给最终用户提供服务,这个东西叫AIoT应用。
真正一个AI产业落地本质上就是在不同空间、不同场景构建一个个独立的AIoT应用。更进一步,只有应用有了才会有这个产业链、平台、芯片,才会有所有东西生机勃勃的发展。
在这个过程中,AI算法如何变成AIoT应用?这一路径很长,印奇认为可分为三个阶段。
(1)最早可能先产生一个新的算法,算法在性能上要可用。
(2)AI公司首先成为系统集成商,用系统集成牵引做出软件平台,连接所有硬件。
(3)当软件做得足够好,会发现很关键的硬件,但没有一个厂商真正做得非常好。于是AI企业开始做软硬结合的方案,AI定义硬件。
从算法到系统集成、到软件平台、到最后的软硬结合,这是AI企业真正想在行业落地,实现价值闭环时必经的一个最小路径。
那么这个路径复杂度如何?印奇从商业价值链维度进行了推导。
相比于互联网时代大家讲到的“0~1”,AI落地更加复杂。
(1)0~0.1 阶段:技术可行性和产品价值的验证。比如当年旷视用人脸识别完成金融支付,技术也不成熟,产品也不成熟,应用场景也不成熟。
(2)0.1~1阶段: 是要打磨MVP产品(最小的可用产品),触及到行业用户,用户买了单,完成了最早期的商业实现和落地。
(3)1~N阶段:是规模化应用阶段,就一定是软硬一体。没有硬件,永远是反复在走前两个阶段。
印奇认为,如果一个AI公司只有算法、软件,很难走到1~N阶段,很可能不断地在走0~0.1、0.1~1。所以,一个AI公司所用的路径一定是要先能够验证价值,真正完成MVP和客户的验证,最后定义成软硬一体化的产品,然后规模化复制。而这个价值闭环过程,比之前互联网认为的从0到1要更长,要更难。
3、最难点:AI落地对组织的密度和阵型要求极高
回到人的问题,技术、商业模式再难,印奇感到往往都没那么沮丧。但这是非常复杂的组织,AI公司里的产品部门可能具备四个人群。
(1)产品经理,需要有50%的AI能力,50%的行业经验。(2)CTO,把软件、硬件算法整体来看,有AI行业背景同时也能学习行业。(3)CAIO首席AI官,负责AI可行性评估,可能很懂AI但没有那么懂行业。(4)CMO,强调行业积累,是最后真正实现行业闭环的人。
当AI每个小的产品落地过程中,可能都需要这样四个角色。每进入一个AI行业,部门都需要搭好4 in 1的组织架构。
总得来说,经过以上推导,印奇论证了对于AI产业,AI算法供给、AI价值闭环和AI产业落地组织要求三大方面都十分关键。
四、AI不会覆盖所有行业,最大头是城市物联网,最看好供应链物联网
完成了理论答题,印奇讲起旷视近十年来的实践。
印奇从“1+3”战略说起,其中的“1”即旷视完全自研的深度学习框架Brain++,“3”指的是针对三大行业的解决方案:个人物联网、城市物联网、供应链物联网。其中,旷视的实践是长期践行这个战略。
据称,在个人物联网方面,全球现在有10亿部手机里面都有AI的技术,其中大部分用了旷视的面部识别、超画质、多摄等技术;在城市物联网方面,就是大家常提的新基建、智慧城市、安防等,已经有北京城市大脑、智慧公租房等许多落地案例;在印奇最看好的供应链物联网领域,旷视推出了河图,也有柔性化的机器人软硬一体化产品,也越来越多会进入到真正的物流仓储核心领域。
回到“1+3”战略,从深度学习框架Brain++说起。今年3月份旷视选择开源Brain++的最核心组件——深度学习框架天元。印奇说,旷视科技不是谷歌、微软那样的大公司,把研发六七年的一大核心技术拿出来开源也是纠结的。今年3月基于中美大环境,决定开源“天元”。
印奇认为,海量的算法不会覆盖每个行业,而是在某个行业有很饱和的攻击。每个行业不仅仅需要人脸识别的算法,可能需要100种、1000种算法在同一个场景里,而Brain++经过各方面的实践会发现,它能够缩短80%左右的从需求到落地的时间,同时降低55%左右的算法生产成本。
海量算法会对哪些行业进行饱和攻击?印奇的答案藏在旷视科技的三大业务板块中,印奇说,旷视科技的产品有的处于0~0.1阶段,有的处于0.1~1阶段。由此前数据可知,截至2019年6月30日,在旷视科技的三大业务板块中,城市物联网贡献了73%的收入,其次是占比22%的个人物联网。
城市物联网在印奇认为与近期的新基建热潮更匹配。
印奇认为,没有一个公司能端到端地打造一个城市大脑,正常的情况是,每个城市都有自己的操作系统,每个建筑有自己的操作系统。当下在云、管、端各方面,全社会在投入大量资金,大家对硬件(“端”)的想象是非常统一的,是视频类的应用。
印奇坦言,不同的公司都在朝着同一个方向,但这件事情阶段性大家磨合还很难,企业都没有太认知到自己的边界,没有形成很好的上下分工,需要时间。
“旷视很简单,云、管都和我没关系,我们就是希望在云管端的端上能够以应用为出发点,用AI能力把它连起来。这些硬件可能是我们的,也可能是别人的,AI本身是连接、赋能最后那个大脑部分,而用户用的是大脑那部分,所以我们核心希望是在选的这三个领域里扎扎实实地搭建几个核心的应用。”印奇说。
就像微软是有了office,才有windows。一个super App的诞生,也会推进软件、芯片等各层面的发展。印奇举了一个自己非常喜欢的例子。
当智东西问到,面对安防等行业友商,旷视如何发挥技术优势、弥补行业经验、渠道等短板?
印奇表达了自己的自信。首先他澄清,To B的竞争没有To C市场那么激烈,因为市场是碎片化的。旷视科技进入制造业、物流、零售等行业后会发现,每个行业都有非常优秀的传统玩家,就会去跟他学习,跟他竞争,是良性循环。
同时,旷视自身提到了道路自信,“我们坚信是软件定义硬件,这不是软件+硬件,就像最近华为也在讲的“软件定义硬件”。为什么说自信?我认为如果我们是在正确道路上,核心能力也沿着这个道路不断加强,最后(还看)谁能掌握这个核心能力和核心要素。一个企业都有它的周期,旷视也有自身的周期。”
说完业务,印奇谈到了组织架构,目前旷视科技有3000多名员工,AI人才、行业人才、职能部门的比例是大概是4:4:2。各路人才的背景很不一样,印奇认为要以客户价值为牵引,从相融、包容到融合。
五、“CV+”技术探索:基于计算机视觉,计算摄影向左,视觉反馈控制向右
在印奇用1.5倍速讲完了旷视科技在产业上的进展后,旷视科技CTO唐文斌则用几乎一致的语速讲了旷视的技术实践与探索。
唐文斌开门见山地抛出一个词“CV+”。意思是,计算机视觉(CV)的核心就是从图像和视频里怎样获得高层次理解的信息,这就是旷视科技现在在做的事情。
唐文斌认为,在这个过程中,他的团队洞察到有两大问题亟需解决。
1、首先是在输入层面,如何获得最佳的视频和图像,以方便后续的图像信息理解?
2、然后是输出层面,理解了又怎样?
问题的答案是什么?唐文斌扔出了一张旷视科技地技术地图,叫CV+。旷视最早的时候是以深度学习为核心,以深度学习作为支撑,支撑起了计算机视觉这样的应用。
如何获得更好的输入?从计算机视觉出发,旷视科技发展了计算摄影学。
识别了又怎样呢?从计算机视觉出发,旷视发力了视觉反馈控制。
讲到这里,唐文斌提醒大家讲到的东西会比较技术。
1、深度学习算法本身的思考
旷视科技在算法、数据和系统三个维度对深度学习进行了探讨。
在算法上,可以简单分为以下几个方面。
(1)在深度神经网络结构创新上,旷视科技有一个专门的基础模型组,不做应用研究,只探索深度学习本身的边界。唐文斌主要分享了两个技术。
一是动态神经网络。一般情况下,神经网络其实都是一成不变的。旷视就想,能不能根据输入神经网络还能有所变化?于是就有了这一新技术,动态神经网络能获得更高的精度,获得更高的速度。
二是之前旷视提出了ShuffleNet,ShuffleNet在很多低算力场景下如何让神经网络效率更高。
(2)在芯片优化方面,芯片的本质是0、1问题,那么AI能不能也变成0、1的问题,从而获得极高的性能功耗比?基于这样的思考,旷视研发了两个东西:
一是DorefaNet。Dorefa就是1、2、4,这个网络目标是实现通过低比特神经网络,让它在性能功耗比上有本质的提升。
二是通过算法本身和芯片,旷视和合作伙伴一起做芯片的共同设计,让这个芯片不再是个普通的芯片,而是拥有极致的性能功耗比。
(3)在规模化算法序列方面,旷视科技的研发人员研发出了千卡分布式训练祖母模型,使得大模型来训练中等模型,中等模型再训练小模型,就像祖母培养爸爸,爸爸培养孩子,因此名字里含有“祖母”。唐文斌还提到了AutoML,能通过网络方法自动模型做物联网的探索。
(4)在算法自演化方面,旷视科技开发了算法自演化模型,使得算法不再一成不变,数据可以不需要监督的,不需要标注,能够和那些数据迭代自身,在旷视一些应用里现在已经开始在使用。
(5)在数据和系统方面,旷视有天元MegEngine和Brain++一整套系统,通过工程化创新去提升效率。数据层面之前也发布了一个数据集,和北京智源研究院一起发布的“Objects365”,据称是第二大数据集的16倍。
2、计算机视觉
基于深度学习的技术和能力,旷视科技这几年一直在做计算机视觉。唐文斌坦言,虽然旷视好像做了很多的算法,但市场还需要很多很多多维度、高精度、高关联度的算法。“当我们看待一个问题时,它有不同的对象、不同的属性、不同的事件,等于一系列的东西,我需要非常多的算法。”且“必须是能接近95%、99%甚至99.99%的准确率。”
对此,旷视科技除了通过前面讲的技术解决,还依靠整个full time(全职)研究员大概500人的研究院,据称是全球最大的计算机视觉研究院。
3、如何更好地输入——计算摄影
以计算摄影领域的屏下摄像头场景举例,当下现状是,屏幕、光传感器、算法都是独立的,面临屏幕下进光不够的问题,传统的光感知系统中,就是对光、感、知各系统进行独立优化,这是低效的。而旷视科技的优化思路是,将三大环节联合优化,屏幕进光量不足,可以在传感器环节解决,增大曝光面积,优化AI算法。从最终应用出发,做联合优化。
3、输入后做什么——视觉反馈的控制
第一,眼、脑、手的配合与协同优化。看到之后能不能让手动起来,手眼是要联动的。旷视称,目前已经能“眼之所见,手之所向”,“脑之所念,手之所动”。第二,眼、脑、腿的协同优化。据称旷视科技目前已实现通过复杂的场景看到这个世界,让小车、让“腿”能够跑起来,而且能跑得很快。
结语:放低期待,找一两个行业活下来,走到最后方成大器
我们本次深度呈现了旷视科技的产业和技术发展路径,两位年轻的“AI老将”用高考答题般的推导方式向大家输出了自己的AI行业、物联网浪潮的体验和认识。
当智东西问到,以后大家会不会说旷视科技从AI公司变成一个机器人公司、或者AIoT公司?唐文斌表示不介意,但他认为可以不这么狭隘的理解,软件也好,硬件也好,AIoT也好,这都是术语、是手段。“很早以前别人说我们是AI公司,我们就说我们是以AI技术为核心的产品和解决方案公司。”
总的来说,他们很坦然地承认,甚至在极力的向大家证明,先前外界对于AI的期待可能需要降低一些;同时,他们也似乎对自己选择的从AI算法供给出发,通过软硬一体的价值闭环在一两个行业做出成绩的眼下路径十分自信。这是旷视科技的发展路径,或许能为千百步入所谓的“死亡之谷”的AI创企提供一个参考。