0

专栏|语义SLAM的重要性,你造吗?

英特尔中国研究院人工智能 智东西专栏 英特尔中国研究院专栏2017/09/05

智东西(公众号:zhidxcom) 文 | 英特尔中国研究院 机器人系列科幻大片的迷弟迷妹,一定对《超能陆战队 […]

智东西(公众号:zhidxcom)
文 | 英特尔中国研究院

机器人系列科幻大片的迷弟迷妹,一定对《超能陆战队》中那个体型呆萌的机器人大白印象深刻。空虚寂寞找大白,身体不适找大白,组队打怪还是找大白!不同于我们生活中那些呆板的机器人,大白具有类人的理解世界的能力,可以说是我们理想的生活助手!

虽然大白只是电影中的虚拟人物,但我们正在为打造这样的机器人而努力。语义SLAM正是实现这一目标的关键技术,旨在是让机器人从几何和内容两个层次感知世界。

什么是语义SLAM

SLAM(simultaneous localization and mapping,即时定位与地图构建)在机器人,无人机,AR/VR等领域都有应用。对于机器人,特别是室内机器人,SLAM技术可以为其提供环境的结构信息和自身的位置信息,从而实现导航等应用。换而言之,SLAM技术从几何层面帮助机器人感知环境。

但对于大白这种智能机器人来说,仅仅感知环境的几何信息是不够的,还必须感知其中的内容信息。如果想让大白走到某个位置, SLAM技术就能实现。但若要让大白认识书柜、主动找到书柜并帮你取来一本你需要的书,就要用到“语义SLAM”。语义SLAM是把“语义”和“SLAM”进行有效融合。

语义在此处泛指机器对周围环境内容的理解,比如认识环境中的物体、人,以及它们的关系等。传统的SLAM通过点云等形式表示周围的环境,但我们需要的并不是一群毫无意义的点。机器人需要进一步抽象这些点的特征并理解它,进而能从几何和内容两个层次感知世界,为人类提供服务。

左图:传统的基于点云表示的3D地图
右图:包含语义信息的环境重构。
图片来源:CVPR2011: Semantic Structure from Motion

语义 VS SLAM

语义分析和SLAM均是计算机视觉领域的传统研究课题,但语义SLAM还是一个较新的概念。你可能会产生疑惑:语义SLAM的中心词是语义?还是SLAM?

语义和SLAM看似是两个独立的模块,实则不然。在很多应用中,二者相辅相成。一方面,语义信息可以帮助SLAM提高建图和定位的精度,特别是对于复杂的动态场景。传统SLAM的建图和定位多是基于像素级别的几何匹配。借助语义信息,我们可以将数据关联从传统的像素级别升级到物体级别,提升复杂场景下的精度。另一方面,借助SLAM技术计算出物体之间的位置约束,可以对同一物体在不同角度,不同时刻的识别结果进行一致性约束,从而提高语义理解的精度。

语义和SLAM的融合不仅对二者自身的精度提高有很大帮助,更推进了SLAM在机器人等领域的诸多应用,如机器人的路径规划和导航、听从人的指令搬运物体、做家务、陪伴人类运动等。

语义SLAM的现状和未来

学术界对语义SLAM已有不少初步探索。2012年,Sid Yingze Bao等人尝试了同时估计相机位姿和图像语义。这种联合估计的方式显著提高了物体识别精度和鲁棒性,展现了位姿信息对语义的帮助。2013年,帝国理工学院的Renato F.Salas-Moreno等人预先对场景中的物体进行3D建模,通过点云和物体的匹配来估计物体位姿。该方法可以认识预先建模的物体,并同时生成稠密、精准的物体级别的语义地图,体现出语义级物体模型对SLAM的帮助。2015年,斯坦福的Vibhav Vineet 等人首次实现了一个接近实时的系统,能同时进行建图和语义分割,展示了把语义SLAM推向实用的可能性。

与学术界不同,语义SLAM在工业界尚未受到广泛关注,主要限制在于精确的语义分析需要大量计算资源(例如目前最先进的图像语义分割方法大多基于深度学习)。尽管如此,随着计算机硬件水平的突飞猛进和软件算法的快速更新,更多语义分析技术已开始在不同行业得到应用,如人脸识别、人体检测等。

我们的工作

语义SLAM是我们机器人交互实验室的研究重点之一。下图是以英特尔办公区为背景生成的语义地图。左图是基于SLAM技术构建的3D点云地图,右图则是融合了语义信息的语义地图。显然,机器人在得到语义地图后,可以轻松获取屋内沙发、椅子、门以及墙壁的位置和形状信息。

举个栗子:我们想让机器人从卧室走到厨房拿个苹果,这该如何实现?依赖传统SLAM,机器人会计算出自己所在的位置(自动计算)和苹果的位置(手动实现),然后进行路径规划和导航。如果苹果放在冰箱里,还需要手动设置冰箱和苹果的关系。但现在借助我们的语义SLAM技术,人类可以更加自然地向机器人发送指令“请去厨房帮我拿苹果”,剩下的工作则由机器人自动完成。在行动过程中,如果机器人前方有一块被污染的地面,传统的路径规划算法需要手动标注污染区,机器人才会绕开。但加入语义信息之后,路径规划和导航都将更加智能。

左图:3D点云地图。
右图:3D语义地图(蓝色 – 沙发; 绿色 – 书架;粉色 – 窗帘;黄色 – 墙;红色 – 桌子……)

我们相信,语义SLAM是实现自然、和谐的人机交互的基础,对于机器人的室内建图、定位、导航等多方面应用将发挥关键作用,基于语义SLAM的研究和应用有着巨大的发展空间。

zhidx