优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

出品 | 智东西公开课
讲师 | 庞建新 优必选科技副总裁、深圳研究院副院长
提醒 | 关注智东西公开课订阅号,并回复关键词 论坛01,即可获取课件。

导读:

9月11日,智一科技旗下智能产业第一媒体智东西联合CIOT中国光博会主办了一场“移动机器⼈3D视觉论坛”。本次论坛邀请到元橡科技副总裁陈超,上海炬佑智能科技公司CEO刘洋,优必选科技副总裁、深圳研究院副院长庞建新博⼠,炬星科技首席科学家刘俊斌,未来机器⼈(深圳)有限公司联合创始⼈&CEO李陆洋等5位嘉宾。

本文为优必选科技副总裁、深圳研究院副院长庞建新博士的演讲内容,主题为《面向智能机器⼈的视觉感知与理解》。

在本次演讲中,庞建新博士首先对什么是智能机器人展开介绍,之后对智能机器人的关键技术和视觉技术进行详细分析。

本文为此次演讲的图文整理:

正文:

大家好,非常荣幸有机会与大家分享面向智能机器人的视觉感知与理解。我今天分享的主题为《面向智能机器⼈的视觉感知与理解》,主要分为以下3个部分:

1、什么是智能机器人
2、关键技术
3、智能机器人视觉技术

1、什么是智能机器人

众所周知,机器人有多种形态,有软件机器人、硬件机器人、移动机器人,还有电影里看到的虚幻机器人,那么智能机器人到底是什么?当今世界,有两个平行的世界,一个是我们看到的物理世界,另一个是互联网世界,在数字世界和物理世界之间,智能机器人会成为两者很重要的连接点。智能机器人把物理世界的数据反馈到数字世界,在数字世界得到更多的内容、决策和感知的理解,最后反馈到物理世界。它连接了人、物理世界与数字世界,而智能机器人要具备这样的能力,需要具备哪些元素呢?

优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

众所周知,机器人有多种形态,有软件机器人、硬件机器人、移动机器人,还有电影里看到的虚幻机器人,那么智能机器人到底是什么?当今世界,有两个平行的世界,一个是我们看到的物理世界,另一个是互联网世界,在数字世界和物理世界之间,智能机器人会成为两者很重要的连接点。智能机器人把物理世界的数据反馈到数字世界,在数字世界得到更多的内容、决策和感知的理解,最后反馈到物理世界。它连接了人、物理世界与数字世界,而智能机器人要具备这样的能力,需要具备哪些元素呢?

2、关键技术

智能机器人要想快速奔跑和移动,需要有大量视觉感知技术。机器人是一个复杂的系统,它包括人工智能、机电设计、传感器等一系列技术。智能机器人的关键技术之一是运动能力,智能机器人有伺服舵机,类似于人的关节,我们还研发了面向不同部位的系列伺服舵机。智能机器人与工业机器人相比最大的差异是它的速度是动态变化的,负载也是动态变化的。

优必选科技在2017年研发了Walker的第一代样机,可以实现平衡控制,2018年实现了上下楼梯,2019年增加了双臂。2019年2月,6台Walker亮相春晚,优必选科技告诉大家大型的仿人服务机器人并非遥不可及,它正一步步走进我们的生活。

目前,我们取得了哪些进步?首先,智能机器人移动速度更快,视觉感知速度更快;其次,从最早的双臂控制到全身的控制,以及更好的双臂协同技术,让智能机器人能够感知到更多的信息。

3、智能机器人视觉技术

我们在智能机器人视觉方面的工作,主要体现在感知、理解、学习及推理4个方面,涉及到目标检测、目标追踪、人体姿态估计、人脸识别、行为识别、推理等技术。我们不仅仅是把目标检测出来,还要把目标所在3D空间中的位置找出来,接着要知道是什么。通过学习判断物体的最佳抓握点在哪里,该如何抓取,抓取过程中如何避开障碍物,这都是智能机器人涉及的视觉技术。

优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

上图是我们在目标检测与跟踪上做的一些工作,这些技术同样可以应用到体育比赛中,当机器人实现多相机感知周边场景时,比如做360度的感知,可以更好地感知场景。同时,我们也关注单目深度估计技术。

优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

上图是人体姿态估计,人体姿态的估计面临很多挑战,比如遮挡情况下,如何评估隐藏在后面的姿态;低光照环境下如何评估姿态;当人很多时或者只出现一部分身体时,如何评估姿态。首先,智能机器人要有感知能力。之后,对人的行为作出预估,到底是走过来握手,还是过来抓取一个东西,这是智能机器人模仿人类的重要基础技术。

当智能机器人在一个场景中出现时,需要通过视觉感知对人的行为做预估,获得人脸信息、年龄、性别以及深度估算出距离,以及对场景做出正确分析,这种能力叫视觉信息结构化,有了视觉结构化信息之后,接着进行视觉的理解、推理,寻找人、物、事件之间的关系,最终进行决策,进行机器人的动作执行。

优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

上图是图像描述技术,给它一张照片,不仅要知道上面是什么,最终还要理解照片中有什么故事,通过深度学习,得到一个结论。上图左上角是一个模特在T台上进行展示,左下角是一个人在做饭,我们希望理解这个场景中的故事。有了故事还不够,把故事讲出来,还要了解里面的细节,问智能机器人看到了什么,这是视觉问答技术。除了知道故事之外,还要根据问答了解故事的细节。此外,还有视觉对话,问答是一问一答,对话的难度也随之提升了,机器人不仅仅能回答你的问题,还能根据你的问题来问你,提升回答的准确性。

优必选科技庞建新:面向智能机器⼈的视觉感知与理解【附PPT下载】

由于图像描述可以大概地描述场景发生的事情,通过问答技术可以对场景的细节做更进一步的感知。上图是我们做的视觉问答技术的演示。通过这两个技术,可以让智能机器人具备感知能力,在感知能力之上,智能机器人还可以基于认知能力进行推理。

前面介绍的是单一视觉技术,接下来分享如何通过视觉和控制技术结合让智能机器人具备操作能力。比如通过视觉对盒子位姿的估计,加上运动规划和控制,实现智能机器人的抓取任务,一个典型例子是让智能机器人为你倒水。我们研发了定位导航技术,这是一个系统级的技术,包括了SLAM技术,其中用到了激光、超声、红外、IMU、UWB、视觉等一系列传感器实现定位以及导航。激光对玻璃是容易失效的,视觉信息可以和激光信息进行融合,提升定位导航的精度和鲁棒性。

未来,智能机器人的感知能力、认知能力以及操作能力一定会超过人,所以我们也相信随着人工智能技术及机器人技术的提升,智能机器人在各种场景中的应用落地会越来越快。未来,智能机器人会逐渐走进千家万户,给家庭以及更多的场景带来更大的帮助。

以上是我今天的分享,谢谢大家!