智东西(公众号:zhidxcom)
文 | 小智
虚实无界,创新无限。
4月16日,由智能行业第一媒体智东西及全球酷玩试用导购平台极果共同主办的2016中国(北京)VR/AR产业峰会在北京新云南皇冠假日酒店揭开大幕。在这场千人行业盛会上,来自政府主管部门、学术界和产业链各方超过40余位大佬登台演讲交锋,直击VR/AR产业痛点,分享了最前沿的实践、思考和判断。
在下午的演讲环节中,理光软件研究所董事总经理于浩发表了名为“VR/AR与机器视觉智能”的主题演讲,由机器视觉智能的角度透视VR视觉核心技术。
以下为于浩演讲的要点精摘:
1.AR/VR,做不好UI都白搭。VR的UI要逼近真实世界,而AR要把真实世界变成UI。AR/VR的终极目标是人与信息的无缝融合,既没有硬件,也没有接口。
2.AR/VR,脱离现实都抓瞎。最核心的是与现实世界的融合。VR的关键是用户体验,AR的关键是信息增值。产品本身对现实的感知力是VR/AR共同的关键。
3.如何提高产品本身对现实的感知力?做好机器视觉能解决这个问题。理光研究所在VR/AR方面的技术储备在于:光学捕捉设备,机器视觉处理能力,智能化人机交互,收集并加工交互过程中积累的数据。
4.全景视觉的应用方面,理光做过的尝试有通讯,监控,房地产等等。
5.立体视觉是通过多相机标定,对背景建模并进行目标检测和跟踪,将图像增强并进行三维重建。实际上自动驾驶技术就需要这方面的应用。
6.人机交互要通过3D相机捕捉体感的手势等进行识别,并进行图像合成。可以应用在体感游戏,虚拟购物,甚至还能进行虚拟的自拍。
以下为于浩在2016中国(北京)VR/AR产业峰会上的演讲全文:
非常高兴在这里分享VR/AR相关技术研发的情况。
在开始我的报告之前,我首先先想讲一下我听到现在的一些感想,给大家提出三个问题,希望大家带着这三个问题一起考虑VR/AR的发展。
首先,包括在下面的演示,包括前面几位大咖的介绍,讲了很多VR/AR终端设备往往提到眼镜、头盔,简单说是这种信息共享终端。我就想问第一个问题,VR/AR的数据收集终端或者说内容制造终端是怎么样的一个情况呢?
第二个问题,听到现在为止,谈到VR/AR往往都会谈到娱乐、电影也好、游戏也好,当然也有几位提到垂直行业。VR除了娱乐行业之外其它行业是怎么样发展。
第三个问题,现在往往提到设备、内容好像只有设备内容就OK了,比如说我们有手机、有眼镜,这种信息大规模,大量的海量信息怎么样从你的手机传到你的眼镜?用什么样的通讯手段呢?蓝牙恐怕是不行,用其它手段?什么样的手段,这也是需要我们考虑的问题。
我想带着三个问题进入演讲环节。
三个问题之后我又想提出三个观点。
第一个观点,VR/AR做不好,UI都白搭。我个人认为VR/AR是UI的延长,UI先叫接口,以前的说法人机接口,人和计算机进行数据交换的接口。从最早的计算机需要键盘、鼠标,现在也会用到进行信息输入。随着发展,硬件逐渐被消失,大家用pad手指点或者语音输入,硬件会逐渐消失。进一步VR/AR终极目标是人与信息的完全的无缝融合,就像那时候既没有硬件也没有接口,那么就是人和信息整个的融合,这个应该是它整个终极目标。
在这里也分享一下对VR/AR区分的看法。我们认为VR是让UI更加逼近真实世界。换句话说用V更好实现R,这是我们对VR的定义。
AR,换句话说在实现足够好的R的时候,又让人重新进入到这个R,我们在这里把它定义为AR。
第一个概念,VR/AR都是跟UI紧密结合在一起。
第二个观点,VR/AR脱离现实都抓瞎。同样AR也好、VR也好,最核心还是那个R,实际的世界怎么样去描述这样的实际的世界,怎么让虚拟世界和真实世界融合,总之现实、真实是最核心的,这是第二个观念,这是分开AR和VR的作用。我们认为VR还是刚才说的尽可能真实描述这样的现实,在这里用户体验是最重要核心价值。而在AR方面,换句话说在已经很好描述虚拟世界,当我们人作为主体进入这样一个世界的时候,你怎么样去创造一些新的价值,这是AR的核心。在这里我们想说,不管是VR/AR最终结合的实际落脚点在现实在R,我们提出内容、人机交互,产品带来的是VR/AR的关键。
第三个观点。VR/AR机器视觉不能差。既然我们要描述一个真实的世界,既然我们要去进入到这样的被我们描述真实世界,在这里通过什么样的手段进入这样的世界、描述这样的世界?前面有嘉宾提到,我们周围信息大约70%是通过视觉视频得到,在这里我们提出来,也是我们研发中心的研发方向,视觉在提供更大更多更好的作用,机器视觉不能差。
进入我们的正题,VR/AR与机器视觉。
简单介绍一下理光,我刚才看一下发表的嘉宾,只有我们一家公司是真正的外资公司。理光今年成立80周年,是一家日本公司。大家以前熟悉理光的相机,特别数码相机之前的模拟相机,现在用得比较多多功能机,复印机、打印机这样的一些融合的多功能机。理光在这样的一些产品之外还有一些特别跟VR/AR相关很多产品,一层展示区有几个展示。最左边有一个超短焦的投影仪放在10厘米的地方,直角投出很大的区域,一方面很方便的投影,另外在VR/AR场景中可以把它藏到天棚中地板下,你看不到投影仪,你走过信息就会投出来。包括界面有全方位360度的相机。
整个产品链希望提供给大家不光是办公设备,特别是目前在工业领域能够提供相关工业相机,为大家提供整个新的价值链。
简单介绍一下我们公司。我在的公司叫理光软件研究(北京)有限公司,我们在美国、日本、印度研发中心,在上海也有软件开发的机构。这是对研究所整个的定位。AR也好、VR也好、人机交互也好,分为两部分,现实世界有采集的终端,包括有相机包括有各种各样的交互设备,输出端有输出设备,头盔、打印设备、投影仪等等。我们希望在输入端和输出端能够构建机器视觉智能软件平台,利用理光光学捕捉设备,发挥机器视觉处理的人才优势,提高人和环境的智能化的交互,包括信息的收集、整理、挖掘为业界提供新价值,这是我们新的想法。
下面给大家讲讲我们讲过真实的工作,也希望跟大家在下面有进一步合作的机会。
首先,这是在下面有介绍一款全景相机,RICOH THETA,有双鱼眼镜头,每个鱼眼镜头是180度,合在一起360度,拍出来的相机是一个球体,非常有特色的相机。这种相机大家以前探索在做,但是像我们做得很小巧,功能很完备,而且价格很便宜,国内售价在2400,国外在1700、1800人民币左右。它的特点,一键可以照到360度整个全景。
我们出了第三代,第一代是白色的,两年前大约这个时候我们在北京举办THETA创意大赛,邀请十所高校,北大、清华、北理工等等,每个高校赠送这个相机,利用这个相机想象一下做出什么样的应用,这是第一代。
第二代出来彩色,下三代叫S,只要MDI接入之后做监控的摄像机可以拍视频,完全不需要设定做摄像、监控。
林总第一个在台湾买的THETAs。
我们能做什么?首先是360度视频实时通讯,大家有电视会议的经验,电视会议,双方镜头只能拍一个角度,想拍某一个人你看不到,通过我们的相机,每一个会议室的中间放一个THETA相机兼顾会议室的变化,加眼镜,VR/AR,在北京体验在上海的感觉,好像我在上海,看到上海会议室的情况,看到单点到多点,点对点的电视会议系统。
第二,做360智能监控。监控摄像头一般有死角,拍不到地地方怎么办?用360度监控,放到商场或者是展会做人流监控,通过我们把后端再加上一些人的追踪的软件加上之后可以做这样的追踪系统。
第三,这是交互房产的展示。房地产在中国是很热门的一项经济,所以怎么样提供房产购物的体验也是带来很大的价值。这种思路也很简单,首先一键刚才的相机拿出来拍一个照片,这个照片拍出来是球形的,不适合人本身对房屋的体验,我们做软件处理技术,通过多角度视图拉开,变成三维图形,变成XYZ三轴空间,可以自由看到你的各个相关的房屋的情况。
下面有一个视频,这是我们在日本做的一个真实项目。大家看到这个相机放在模特下面,很小巧藏到模特下面,对于商场人走入、流动就可以看到,走近可以进一步看到每个人什么情况。这是一个显示画面。这是刚才介绍的房产房屋的感觉,左上角用THETA凭借没有展开的画面,右边自由旋转角度看房屋构局包括顶视图,非常简单,一键拍照后期加相关处理就可以给大家非常好的体验。
下面介绍立体视觉相机。简单说一般的相机大家都是用单镜头,立体视觉的相机是双镜头,是有两个眼睛。你一个眼睛受伤,当你挡上一个眼睛,你可能面向一个目标走的时候,容易找不到,你对距离和角度的判断会发生一定的偏失,相机也是,双目相机更准确判别到你要看物体的位置距离,通过这样的信息就可以做很多比较有意思的事情。像相机的标定,在监控也好、VR/AR也好是一个很基础的技术,包括可以对背景的建模,目标追踪可以用到汽车自由驾驶上,包括图像增强,三维重建,模型化,这是我提到第一个问题,我们大家一直在关心眼镜显示这只是一个方面,我们还应该关心体怎么构建虚拟空间,这是我们提出的方法。而且还能做智能监控,双目相机可以很好获得距离的信息,做很好的监控。
这是在前年广州车展拍的实际视频,不同颜色的方框表示对一个人的追踪,另一个面是深度的信息,不同的颜色代表追踪物体和我们相机距离之间的变化,这样很准确把人数统计出来,这是广州车展真实展现,比一般相机准确得多得多。
下面是介绍一下刚才提到超短焦投影仪。我们第一个观点提到,VR/AR,是在讲人机交互的问题,我们也希望能够做到自然的更加不亚于设备很自由人机交互的手段。比如说我们在座体感手势的识别,大家用手势操作计算机做人机交互,包括图象合成做相关VR/AR的产品。比如这一个例子叫第一视角,模仿一个戴谷歌眼镜,我们可以通过触碰物品的动作定义为我要买这样的动作,比如说用翻页的动作找到其它相关产品的信息,同样一本书在其它商场价格搜索等等。VR/AR还有一个很好的观点或者概念,能自由切换一个视角,用完全不同的视角看世界,像一般的监控都是被动,监控在监控,摄像机拍我,由于眼镜变成第一视角,作为主体的你第一视角的操作,这样的变化也是大家注意到的。
第二,体感橱窗游戏,这是跟北京橱窗展做的游戏,用手的动作做相关游戏。有两个人擦玻璃的游戏,你的玻璃被雨水弄模糊了,大家用体感动作操作,谁能先找到里面藏到的宝物。
右边在北京车展和广州车展做的人机交互是个小游戏。大家去过车展,车展人非常之多,你想和车或者你喜欢的车模照相几乎是不可能完全的任务,尤其到最后开放日,我们跟有关媒体合作,事先拍照了车或者车模的照片,人到这个位置拍照,我们把你的照片跟背景抠出来跟车和车模合在一起,大家说这很简单,刚刚谈到比如三维电影都有这样的情节,但三维电影背景是有限制,比如说用绿色或者蓝色整个限制,我们背景是不加限制,我们任何的照片都可以合成在一起,这是在人机交互做的几个尝试。
最后讲一下工业智能相关的 研发。理光的强项我们有很强的硬件的平台,包括相机平台,我们还会生产特殊需求的工业相机。比如说双目相机,可以用在机器人,双目相机能够很准确判断位置、距离,由相机作为机器人机器手的输入,作为组装或者装配的活动。
像这个比如说我们用到大井深的相机,拍到不同的,不需要聚焦拍到多个物体,通过这个做整个物体的识别,包括颜色的检测,可以检测包括屏幕包括什么的。大家觉得VR/AR关系不大,但是我还是想说几位嘉宾提到VR/AR目前在娱乐业,真正让它火下去,一直长胜不衰是工业领域。
我们是研究所,我们主要做核心技术,我们输出专利论文或者原型产品,我们也希望在中国目前创业大潮跟大家一起分享这样的成果,在今年1月份跟大河创投也是国内创投基金成立大河理光加速器,把我们的一些技术,一些IP拿出来支持创业团队,大河提供相关的资金支持,这也是刚刚启动的一个项目,也是希望特别后面创业小伙伴如果感兴趣可以跟我联系。
最后总结一下,到底什么是虚拟?什么是现实?我把VR/AR评成四个阶段。庄子梦蝶,庄子是梦成蝴蝶还是蝴蝶梦成庄子,这是第一个阶段,当你有什么不满意的时候你需要去用AR解决一下,真实世界和虚拟世界是分开的,只是一种精神解脱,这可能是VR/AR第一个阶段。
第二个阶段,大约是十年前特别火的一个游戏,这个游戏我觉得建立真实世界和虚拟世界连接,简单说我们每个人包括公司都在虚拟世界去建立自己的一个账号,你在那里面会有第二人生,第二种生活。我说它是第二阶段,为什么是第二阶段?跟庄子梦蝶,A和R,真实和虚拟还是分开,这时候已经建立一个连接,而且特别有意义的是,还有Linden币。
第三个阶段就是《骇客帝国》,计算机提供生物能,提出一个问题,我的世界到底是真实还是虚拟。比第二个阶段进了一步,不光是连接而且可以进入。
第四个阶段,贾宝玉梦游(太虚),假作真,时真时假,无为有处有还无,我们在技术上需要是哪儿?是硬件还是软件,我在这里没有答案,希望跟大家一起思考,谢谢大家!