芯东西(公众号:aichip001)
编辑 |  GACS

9月14日~15日,2023全球AI芯片峰会(GACS 2023)在深圳南山圆满举行。在首日AI芯片架构创新专场上,肇观电子的CEO冯歆鹏分享了主题为《AI视觉芯片打造机器人的核心感知能力》的主题演讲。

冯歆鹏先介绍了VPU的定义以及学科基础背景,认为VPU的市场规模和GPU相当,在世界正在从2D转向3D的技术革新中,是未来机器人等智能设备必不可少的重要组成部分。

肇观电子在产业内积累数年之久,也从其中汲取了不少落地经验,并将其赋能与产业。冯歆鹏还提到肇观电子几个有趣的落地场景案例。比如说,如何打造能够在冷库中工作的机器人,又如何让汽车能够巧妙的避开障碍物等等。此外,他还认为未来世界,将会是机器人和人类共存的状态。

以下为冯歆鹏的演讲实录:

大家好!我是肇观电子CEO冯歆鹏,很高兴今天有机会能够跟大家分享。肇观电子名字听起来比较独特,肇是开启,观是视觉,开启视觉的意思,英文是NextVPU,也就是Next Vision Processing Unit,下一代视觉处理器的意思。

我们是一家做计算机视觉和人工智能端侧的芯片和模组核心元器件的公司,我们做的事情就是帮助所有智能设备,让它看懂世界,赋予它看懂世界能力的事情。我们的下游也比较广泛,在机器人、车载、工业、安防、消费都有诸多的应用。

一、要让机器人看懂世界,需解决五大技术问题

今天我讲的主题聚焦在机器人方面,机器人在过去的很长一段时间,一直是热点的领域,也经历了很多年的发展,到现在机器人领域在快速地发展,而且将来市场非常广大。所以特斯拉马斯克说过特斯拉现在已经不是一个车载公司,是机器人公司。

大家想要解决的问题其实很类似,当今世界面临很多挑战,解决这些挑战的一个现实有效的措施,是提高生产效率。如何能够快速地提高生产效率?就得利用发明或者创造更加智能的设备,来自动帮人解决很多问题。

我们都希望将来的世界大概率会是一个无人工厂、无人农场、可穿戴设备、无人驾驶汽车,是一个高度自动化的世界,这些智能设备可以提高每个人的工作效率以及生活的质量。咱们这个会场可能有很少的机器人,但是过数年后,全球可能是300亿个机器人和90亿人口共存的一个世界。

300亿个智能设备很重要的就是具有视觉能力,机器人要能自主地在空间中移动,去解决它的这些问题,完成它的任务。这些设备自主移动、需要全天候地移动,需要24小时在各种恶劣条件下、各种环境下,能够正确地解决它的问题,这需要它有相当程度的视觉能力。

我们肇观电子做的事情,就是帮助所有设备赋予它“视觉能力”。

视觉,大家都比较理解,它对于每个智能生物和智能设备都非常重要,人对信息的采集主要是通过眼睛,同样对设备而言,视觉能力是它的核心技术能力,所以我们在做这样一件事情。

我们让设备看懂世界的话,要解决几个子问题,就是设备要看懂世界,首先得看得见世界,还得看得清楚、看得懂。

看得见和看得清楚,在现场这样的光照下是挑战相对比较低的场景。但是如果需要一个智能设备在完全无人化地去解决它的问题,在全天候、全场景地去做,这个问题就变得非常复杂。

机器人往往会被要求在人眼都睁不开的强光下,还能够正常地成像;在很黑暗的区域,比如黑灯工厂,它还要能正常成像;还有在强逆光下,比如智能车很大的挑战就是远光灯打过来的时候,人都觉得晃眼,车也是一样,所以这些设备要在强光下、弱光下、逆光下都能正常成像,看得见这些该被看见的东西,这些是非常重要的基础。

因此,成像对智能设备能看懂世界非常重要,它首先得看得见、看得清楚世界。

这是我们肇观电子从成立到现在,一直在孜孜不倦解决的方向。成像这个方向可以做50年、100年,是非常浩瀚和非常长的领域。我们取得了一些阶段性成果,但还是在持之以恒地继续做。

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

另外一个很重要的对于机器人的基础能力就是3D感知,机器人如果固定在那里,不跟周围环境交互,这个问题相对好一些,但一旦机器人动起来,就涉及到跟环境中的物体如何互动的问题,那么机器人不能撞到人、不能撞到宠物、不能撞到机器人,所以遇到这些问题的时候,机器人要移动。

像慢速的机器人,大概每秒钟移动0.2米到1米;如果像人的步速机器人,大概每秒钟是1.5到2.5米的速度;如果是两轮车或者四轮车,速度越来越快;还有像飞机这样更加高速移动的设备,这些设备但凡要移动起来,就会跟周围的空间环境带来一些关联。

对于周围做正确的3D感知是每一个自主设备,每一个要在空间中移动的设备的核心基础能力。3D感知是机器人让它变得更智能的核心能力,这也是肇观电子在芯片上做了一系列的事情,使得这些机器人的应用能够更好地感知周围的环境。

AI是机器人的另一大方面,刚才很多嘉宾分享了在AI方面诸多的成绩。AI对于机器人,当它能够正确识别什么是地板、什么是墙壁、什么是天花板,其实这都是很有挑战的事情。大部分情况下,人一看就知道这是地板,但对机器人而言,要严格意义上让它99.99%的情况下知道是地面还是桌面,要加以区分,是非常困难的一件事情。

所以AI解决的就是这样的问题,桌子、椅子、茶杯是不一样的物体,如何做语义分割,如何在高速移动物体情况下还能正确识别,这是非常重要的事情。AI的处理能力对机器人也是一个基础能力。

VSLAM,也就是Visual Simultaneous Localization And Mapping,实时定位和构图技术对机器人也非常重要,对于空间的复刻,数字化整个环境,显示定位自身,把周围地图都画出来,是智能设备、智能生物的基础能力。

SoC,当我们解决了诸多的这些问题之后,我们需要考虑到一个工程化系统层面可执行、可落地、可商用,能够切实给我们下游带来好处,形成价值链闭环的载体,就是SoC,片上系统。一个完整的芯片必须具有诸多的功能,这样使得我们不用在电路板上用多个芯片搭出来一个系统,而是直接在一个板子上用一颗芯片,一颗芯片解决所有问题,这样才能做到高性能、低功耗、低成本、低系统复杂度,有诸多好处。

可以看到,解决这些机器人看懂世界是我们的目标,我们要解决的事情,要在成像、3D、AI、VSLAM、SoC解决这五个问题,这五个问题也是肇观电子从成立到现在一直在积累的能力。

二、摄像头正在从2D向3D跃迁,VPU市场与GPU市场相当

机器人的发展在这几年非常快速,我们也切实地看到了在一些比较艰苦的工作环境下,高温下、低温下,在比较恶劣的环境下,以及枯燥的、繁重的这些劳动下,机器人换人的比例在非常快速地上升,机器人的渗透率不断地走高。

机器人有很多种机器人,有工业机器人、服务机器人、人形机器人、特种机器人、无人机等各种移动物体,如果速度再快一些,可能四个轮子的汽车也是一种机器人。这些设备在不知不觉地快速发展,而且这些设备上面都需要越来越强大的视觉能力,能够看懂周围。

很多机器人它不像人,咱们人只要往前看就可以了,很多机器人比人更先进,它需要四面八方都要看,所以它的身上要装很多眼睛,这也是我们在帮助我们的下游做的事情。

视觉的前身是图像处理,发展了很多年,正在面临比较大的变革,就是从2D往3D在发展。我们知道苹果在消费端发布了Vision Pro,在内容生产上做了一些事情。世界是3D的,无论现在手机也好,各种照相设备也好,都是2D成像,它带来了一维信息的损失,这个损失其实是非常可惜的以及非常重要的,因为那一维信息很重要,所以往前走,大家所有的采集信息拍照设备一定会变成3D。

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

我们知道从量的角度来讲,现在全球每年大概15亿只手机,大概9000万辆车,每个车上有十几个摄像头,有很多的家电,所有这些上面的传感器、摄像头将来都要从2D往3D跃迁,所以我们现在面临比较大的技术变革。

我们做的VPU,跟GPU比较相似的名字定义,GPU大家已经非常熟悉了,GPU的学科基础是计算机图形学,VPU的学科基础就是计算机视觉,计算机视觉跟计算机图形学这两个学科是完全相逆的,VPU干的事是更接近人的智能的本质,它是让设备看懂世界,看懂世界之后这个设备就具有了相当程度的智能,我们都说解决AI问题一半的问题在于视觉,所以解决视觉问题也解决了相当程度的人工智能问题。所以VPU的市场非常之广阔,GPU市场大家都知道很大,VPU其实不比GPU小。

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

这是我们做的阶段性成像成果,我们在暗光、逆光、强光下做一些事情,这些成像是永无止境的事情,我们调整了很多传感器,和各类传感器厂商的关系也非常好,大家互相扶持,也帮助前面的透镜、中间的光电转换以及SoC,这大家在成像系统里面属于三个重要的部分。我们互相扶持帮助彼此解决对方的问题,形成一个非常好的成像系统。

成像系统可以说永无止境,不同的客户有不同的需求,而且不同客户要求也越来越高,所以在这个领域我们做了非常多的事情。

在实际落地中有各种各样奇奇怪怪的问题,透镜有透镜的问题,现场又有特别奇怪的光照情况,在这里面这些问题都需要加以解决,肇观电子在过去一段时间帮助各种客户解决他们实际的问题。

这是我们正在做的一些3D技术,无论是在纯室外、室内外切换的场景还是纯室内场景,我们做了系列3D的技术,这都是用芯片来去做一些计算。在室外,比如像车,以及像各种室外工作的机器人,都需要我们这样的技术,来解决3D感知的问题,使得机器人能避开障碍,知道自己在哪里,能获得这些重要的信息。

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

这是我们基于芯片做的一个VSLAM的案例,我们的一位员工拿着智能3D深度相机在空间中移动,红色的线是相机移动的轨迹,通过这些扫旁边的一张桌子,把它扫描出来,这是实时扫描的结果,我们在芯片上做了很多特征点的加速,各种滤波的加速,在上面做很多VSLAM硬件的底层硬件加速的事情,使得离线在端侧实时做三维重建成为可能。

很多应用对实时性要求非常高,一个机器人,我们不希望它像恐龙一样,看到的东西等它反应过来已经是1秒之后了,这是不行的,很多机器人希望0.1秒,也就是100毫秒就要反应过来;这就涉及到感知,从光子打到传感器到它全部处理完然后作出反应,100毫秒内要解决问题。所以很多时候,端侧的处理能力非常重要,因为有些时候是来不及往云端传输数据,解决完再传回来。当然云端也非常重要,所以云和端都是在很繁荣地往前发展。

AI大家比较熟悉了,这些都是具体的落地应用,肇观服务了非常多的各种各样的客户,解决客户的问题。

三、一款汽车多个部位用到VPU芯片,VPU做机器人的眼睛

我们的芯片被用在了汽车上,用在车的三个镜子上,车内后视镜以及车的两个外后视镜上,以及被用在车的摄像头里面,以及被用来做ADAS比如LDW(车道预警)、交通标志辅助识别、驾驶员疲劳监测、乘客监测、DVR,做BSD盲区检测等等。在车载领域,我们是车规、国产、高画质、低延时,性能还不错。大家如果对车载芯片有需求,我们是比较好的选择之一。

一个具体的应用案例是一个电子后视镜,在下雨的时候,画质非常清晰。在黑暗的场景,通过屏幕看,电子后视镜仍然很清晰。

四、基于肇观自研芯片打造费曼系列智能深度相机,更进一步服务下游客户

我平常随身也带着芯片,放在一个小盒子里,给大家展示一下;做芯片就是有这个好处,产品非常小,可以随身携带。

我们基于自己芯片的电路板做了智能深度相机,这就是机器人的眼睛,我随身带的一个机器人的眼睛。工业机器人、服务机器人、人形机器人、特种机器人、无人机器人等各种各样的机器人,都需要这样的眼睛。这个眼睛解决的问题是帮助机器人3D感知,AI识别全在里面做了,成像,以及输出码流。

所以,一个小的模组,像口香糖一样大的模组,就解决了机器人眼睛所有的问题。

我们花了很多力气在做这个产品,来解决客户的问题。举例来讲,很多很严苛的客户,要求我们把眼睛要做到世界第一;在没有我们的时候,是有一家海外的巨头来提供类似的模组。有了我们之后,我们被客户要求替代掉海外巨头,被要求在很多的技术点上要磨到世界第一。

举一个很简单的例子,像这样的模组,它的连接是USB3.0的连接,大家可能有些人比较熟悉,就是一根线,拖出来插到电脑上充电也好,数据传输也好,都可以用。从技术角度而言,USB协议其实不是一个特别稳定可靠的协议。大家如果关注这一点,在工业这种场景下,不稳定可靠是致命的,如果通过USB连接,把这个数据稳定传出来,我们的客户要求我们10万小时的连接不能中断一次,这就要求非常高了。所以为了达到这样的目标,就是海外巨头都做不到这一点,因为它有一些天生的不足导致的问题。

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

为了达到这个10万小时一次连接都不断,我们被迫要去在芯片级、在所有的底层驱动都重新写一遍,在跟它连接的另外一端的软件也要重新写一遍,所以全部的硬件软件都要重新做,所以才能做到10万小时不断连接的场景,这只是客户的诸多非常细的要求之一。

在这个过程中,我们能够提供给客户稳定的、可靠的、智能的、3D的深度的相机,适用于各种极限场景,比如说我们有冷库机器人的客户,它的机器人常年在零下18度搬海鲜的客户,它的眼睛就需要在零下18度每次都能正常启动,完成它的任务,然后再关机。但是比如海外巨头的产品在零下18度开机都开不出来,我们被要求在如此低温下能正常工作。我们也被要求在非常高温下要能正常工作,所以这里面有非常多的客户需求。

所以我们在跟诸多客户在过去很多年一直在打磨,我们积累了非常多解决方案,这些解决方案反过来帮助了肇观如何能够设计出更好的芯片和模组来切实解决客户的问题,这是非常重要的。

在这个过程中,我们也深刻理解了客户的使用场景,客户面对的各种问题。因为这些模组主要卖给这些toB的客户。我们作为一个核心元器件厂商,如何帮助他们解决问题,在这里面肇观也收获了很多宝贵的经验。

五、支持荷兰语德语等各种语言,OCR识别正确率全球领先

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

肇观电子冯歆鹏:五大技术让机器人看懂世界,AI视觉芯片实现颠覆式创新丨GACS 2023

肇观也应一类客户要求,在OCR的领域做了很多事情。不谦虚地讲,在自然光照条件下各种复杂文本的采集分析方面,我们在这个领域,在全球范围内做得算是比较领先。

举例子来讲,比如弯曲的各种文字、不同的背景下,我们文字的采集、文字识别和处理做得比较领先。比如说,右下角这是一个日本的报纸,日文报纸有竖排、横排混在一起,我们就被客户要求把它完全正确处理出来,而且把顺序排好,要能够语义能够理解出来。所以在OCR领域,我们做了很多事情,现在已经支持十几种不同国家的语言了,在这个领域算法做得比较领先。

这是我们OCR的具体例子,我们的识别准确率,我们支持中文、英文、日文、韩文、阿拉伯语、西班牙语、葡萄牙语、法文、德文、荷兰语等各国语言,我们支持各国语言的OCR,我们在这方面做得算是世界领先之一,我们不仅做逐字的识别,在表格的识别,还在各种时尚杂志、绘本等复杂页面里面,能把该提取的东西提取出来,不该提取的不提取,在这里面我们做了非常多的事情。

大家如果谁对OCR的算法或者技术有需求,也欢迎联系我,联系肇观电子,我们都很乐意在客户的产品中贡献一点力量。

肇观一直致力于用AI视觉芯片来帮助所有的智能设备看懂世界,来做这样一件事情,这个事情对我们而言意义非常重大,对这些智能设备而言也非常重要,所以在这个领域,我们一直在深耕我们的芯片,深耕我们的核心能力,更好地帮助到客户。今天我的分享就到这里,感谢大家!

以上是冯歆鹏演讲内容的完整整理。