苹果公开的秘密!万字解密Vision Pro 17项专利

智东西(公众号:zhidxcom)
作者 | 周炎
编辑 | 云鹏

这半个多月以来,关于Vision Pro的消息可谓“冰火两重天”。

先是传出Vision Pro开发者实验室冷清,开发者兴趣不大。后有库克在财报电话会上为自己产品站台:我每天都用Vision Pro,体验者用了都说好。近期,知名近眼显示专利专家对Vision Pro功能演示中虚拟屏代替物理屏提出质疑,称“太荒谬”,文章还获得很多行业人士的支持。

Vision Pro亮相之后,虽然许多数码博主和Vision Pro开发者都抢先体验了它,并发表了体验感受,但仅凭这些还是回答不了关于产品的疑问,总是有点“隔靴搔痒”的意味。从数千项专利中找答案,看清苹果的深层玩法和布局,远比激烈对线更有价值。 

就在一个月以前,苹果公司的人机界面设计副总裁艾伦·戴伊(Alan Dye)接受采访时称,设计团队为Vision Pro申请了5000项左右的专利,同时,在研发过程中,最难就是在专利公开的情况下设计Vision Pro。

目前每周仍许多有关于Vision Pro的专利流出,这些专利有的解答人们对于发布会上某些功能演示中存在的疑惑,还有的彻底放飞了大家的想象力,原来一款产品未来还可能会让人“闻到花香等各种味道”。

这也不禁让人思考:设计团队在专利中为Vision Pro埋下了哪些伏笔?Vision Pro又是否实现了苹果“最初的梦想”?

智东西通过对Patently Apple网站中有关Vision Pro的专利深扒后发现:原来看着简单两指指尖互相触碰实现的手动控制原来需要相机对手部各个关节端的识别;实现人物自动淡入、淡出的EyeSight功能使用了具有支撑结构的红外透明单向镜来实现3D摄像,需要先让相机的POV模拟人眼的POV。

深扒专利为我们的解答的疑问远不及此,在对WWDC23发布会演示视频逐帧回顾后,智东西还发现,苹果“精心选择”了Vision Pro的演示功能,这背后藏着苹果多年布下的“一盘大棋”。

由于篇幅限制,我们选择了手动控制、空间窗口、眼动交互、Optic ID、空间音频、计算机生成现实体验、空中观看动作电影、AR体育赛事、沉浸式远程电话会议、虚拟键盘、3D摄影、影像拍摄通知、EyeSight等13项功能演示背后关系最为紧密的17项专利进行一轮“赛博拆机”。

一、微米级分辨率识别手部运动,可用于导航菜单、控制媒体播放

在WWDC23上,最先映入观众眼帘的就是Vision Pro的手动控制功能。

苹果在过去几年发布了多项关于微手势控制Vision Pro菜单的专利,从美国专利商标局的公开信息来看,该专利涉及具有显示生成组件和一个或多个提供计算机生成体验的输入设备的计算机系统。(computer systrms with a display generation component and one or more input devices that provide computer generated experciences),简单理解就是一种手势控制装置

从目前来看,Vision Pro与手势结合可用于玩视频游戏、导航菜单、控制媒体播放等。Vision Pro的计算机系统(computer system)允许用户使用微手势来与三维环境进行交互。

苹果公开的秘密!万字解密Vision Pro 17项专利

Vision Pro可以识别到对应的指关节、指尖、手掌中心、连接到手腕的手端等的点。Vision Pro的相机安装在远离用户的地方。微手势的不同运动和位置以及各种运动参数用于确定在三维环境中执行的操作。由于微手势不易引人注目,所以可以在公共场合中进行该操作。

苹果公开的秘密!万字解密Vision Pro 17项专利

目前,Vision Pro的手动控制还无法对实体设备进行操作,因此苹果还在继续研发智能戒指系统(smart ring system)。

从目前苹果的专利信息来看,该戒指具有包括滑动、点击、旋转等在内的16种交互方式。戒指中的传感器可以感知到用户的指令信息,然后根据指令控制虚拟物体和现实物体的交互。

苹果公开的秘密!万字解密Vision Pro 17项专利

同时需要明确的是,专利仅仅是技术保护的一种手段,这并不意味着苹果会在短期内推出智能戒指产品,但从该专利为未来可能的交互方式提供了新的可能性。

二、XR系统检测头部运动,用户可操控跨平台虚拟现实应用

如果说,上一个专利与识别手部运动有关,那么这个与Vision Pro头显的3D“无限画布”(infinite canvas)有关的专利就与识别头部运动有关。

苹果早在2022年12月就申请了这项专利,并于今年6月在欧洲发布。从苹果的专利描述上看,Vision Pro的混合现实(XR)系统可以检测头部运动,并相应地调整呈现给人的图形内容和声场。

从功能的角度,该专利可以理解成“空间用户界面自动切换装置”。

苹果公开的秘密!万字解密Vision Pro 17项专利

上图是真实和虚拟组件的分层在Vision Pro内呈现完成的增强现实(AR)视图。根据苹果的说法,对于每一个用户界面(UI),头显都会分配一个边界,该边界定义了某个用户界面应该处于的物理环境。

苹果公开的秘密!万字解密Vision Pro 17项专利

从上图来看,Vision Pro头显系统的相机(camera)和传感器( sensor)会将捕捉到的信息传输到Vision Pro中的合成引擎( composting)和操作系统(application)之中。

接着应用程序会向操作系统发送请求(request),然后操作系统接着会反馈给应用程序哪些是受限制的信息(constrained information)。

苹果公开的秘密!万字解密Vision Pro 17项专利

随后,操作系统会将处理好的场景信息、各个应用程序也会将应用数据传送到渲染引擎(rendering engine)之中。渲染引擎将加工好的信息传送到合成引擎之中,与最初由传感器和摄像机捕捉到的信息进行最终合成,最终各个应用程序界面就会显示在用户面前。

苹果公开的秘密!万字解密Vision Pro 17项专利

三、多单元区计算用户凝视端点,用户眼动控制空间物体

除了手动识别、头动识别、Vision Pro还能针对眼部运动进行识别。产品评论家Marques Brownlee在看到Vision Pro的产品称,你一旦开始使用Vision Pro后,一定会关注它的眼动追踪功能(eye tracking),“我通常不会评价科技产品的功能为“魔法”或者“超现实”,但是这是我接触过最接近魔法的事情。”

苹果公开的秘密!万字解密Vision Pro 17项专利

从美国专利商标局的公开信息来看,Vision Pro的眼动追踪功能和一项“用于注视端点确定的方法和装置”的专利有关。该专利可以用于确定主体在空间中注视三维物体的端点。听起来似乎很复杂,事实上就是一个“眼动控制装置”。

该专利将用户头部及其周围环境定义为一个系统,并将其分为了多个单元区,其中包括眼睛跟踪单元、头部跟踪单元、3D场景结构表示单元(3D scene structure representation unit)、计算单元等。

Vision Pro会追踪用户的眼睛的注视方向,头部、眼部跟踪单元相对于整个参考坐标系的位置和取向,接着,Vision Pro在就会在3D场景结构表示单元中,通过参考坐标系中的坐标通过真实世界场景中对象的3D位置及其3D结构来表示真实世界场景和场景中包含的对象。最后,计算单元会基于用户眼部的凝视方向、眼动仪的位置、3D场景结构表示等来计算出用户的凝视端点。

苹果公开的秘密!万字解密Vision Pro 17项专利

四、传感器捕捉用户虹膜信息,用户可通过Optic ID进行识别

8月初,Vision Pro虹膜生物识别系统Optic ID背后的专利也“浮出水面”。

从苹果的描述来看,这项专利可以理解为“生物信息辨识算法”Vision Pro的摄像机可以用于捕捉用户的虹膜、眼睛、眼眶周围区域的生物特征图像,然后摄像机中的控制器(controller)上执行的算法可以动态地确定这些被捕获的图像中哪个可以用于生物识别认证。

苹果公开的秘密!万字解密Vision Pro 17项专利

Vision Pro摄像机中控制器选择图像的客观标准包括:图像的曝光度、对比度、阴影面积、清晰度、是否有遮挡物体、是否有反射光等。

五、几何声学模拟现实听觉刺激,观影时空间音频更加真实

在结束身体部位识别板块后,想必大家在观看WWDC23时,都会对上面动图中演示的“空间音频”的功能有所印象,同时因为没有亲身体验过“空间音频”,所以并不清楚“空间音频”会如何提高沉浸感。

苹果公开的秘密!万字解密Vision Pro 17项专利

传统上,当声音沿间接路径传播时,耳道入口接收到的声学信号中可能会存在伪影,通过使用空间音频滤波器的信号处理算法,可以将用户特定的伪影合并到双耳的音频中去。

为了实现准确的空间音频再现,虚拟音频系统可以使用HRTF来创建声音来自空间中某处的错觉。声音可以使用射线进行追踪,这种方式被称为几何声学(GA),几何声学的方法可用于模仿合成声波的某些现实行为带来的听觉刺激。

苹果公开的秘密!万字解密Vision Pro 17项专利

目前的空间音频合成软件可以管理实时模拟移动接收器周围的移动声源的计算负荷,然而,这些模拟往往是基于静态混响的,在现实世界的场景中,声波和反射性/阻碍性表面之间存在着显著的相互作用。房间的建筑或场景构成中的每一变化都会对房间里的声波在任何给定瞬间的实时模拟方式产生重大影响。

这就需要改进虚拟三维环境中的实时物理听觉化技术,这包括其中任何(或全部)的环境:声源、声音接收器和虚拟环境中的几何/表面可能在声源被模拟时的动态变化。

苹果的这项专利可以理解为“位置追踪与动态音频调整系统”。

当用户走到虚拟空间中的哪个位置,都能听到实时处理的遍布于空间内拟真的声音效果,这些声音会根据空间内物体位置、甚至材质,以及实时移动的人产生变化,从而更加真实。

六、生成用户化身,支持计算机生成现实体验

在观影的过程中,除了空间音频带来的沉浸感,Vision Pro可为用户带来计算机生成现实(CGR)体验,在提供CGR体验之前,需要了解用户的姿势。一些CGR体验呈现模仿用户行为的用户化身,如果用户移动身体的一部分,化身就会移动相应的部分。

苹果公开的秘密!万字解密Vision Pro 17项专利
从FIG18可以看到,Vision Pro的传感器可以对用户身体的姿势及其进行捕捉,然后分别在用户的左肩、右肩、上下左右臂、躯干、左右腿等位置进行定位,Vision Pro会将这些身体姿势信息反馈到用户的神经网络训练系统中,然后用户会产生计算机生成现实体验。

苹果公开的秘密!万字解密Vision Pro 17项专利

这项技术是通过苹果去年收购以色列公司Camerai引入苹果的。

七、识别用户内耳前庭感知到的运动,减小飞机场景观影眩晕感

WWDC23上,苹果的视频预告片中展示了用户如何在飞机上佩戴Vision Pro观看电影。

要知道,一般情况下,当身体运动和视野所观测到的运动不匹配或者头部运动和视觉观测的头部运动不匹配时,人很容易产生晕动症。而当用户在空中佩戴VR/AR头显时,由于飞机颠簸,以及VR/AR头显显示的视野太窄或各种追踪功能缓慢/不准确,身体运动、头部运动与VR/AR头显观测到的事物容易产生不匹配的情况,从而导致定向障碍和恶心。

苹果公开的秘密!万字解密Vision Pro 17项专利

近眼显示专家Karl Guttag在其创办的科技网站KGOn Tech给出了更加细致的分析,Karl Guttag称,人眼视场角内分辨率最高的区域(视网膜中央凹)其覆盖范围仅为2度,使用者眼前看到的图像是眼球通过扫视、跳动等微动作捕捉并拼凑在一起的结果。

在Karl Guttag的分析中可以看到,在通常情况下,人体主要通过三种感官来保持平衡,其中内耳器官的前庭感知(VOR)可识别头部的方向,以及哪个方向是上下方,如果人眼前看到的运动与前庭系统感知到的运动不相符,那么就容易引起恶心、眩晕等症状。

由于AR/VR头显主要根据用户眼球和头部运动来动态渲染图像,显示的内容可能会导致内耳、眼球检测到的数据不一致,从而眩晕。R1芯片宣称可以大幅消除传感器和显示器之间的延迟。

Karl Guttag称,在飞机等长途移动场景中,与前庭相关的晕动问题可能还会加重,因此,Karl Guttag得出结论,Vision Pro还需要识别用户内耳前庭感知到的运动,才能很好地减少运动症状。

巧合的是,苹果今年6月公布的一项专利显示,苹果的确走了一条和Karl Guttag的猜测相同的路。这两项专利分别可以理解为“运动感知增强系统”和“相对惯性测量系统”。

首先,第一项专利中,Vision Pro通过调整中心凹视区域(foveated gaze zone)外部的内容对比度或空间频率(spatial frequency)可以减少晕动病,这种方式也不会像黑掉内容那样有损与用户体验。

具体到实施方式上,苹果增加了与用户物理环境的3D空间相关联的内容到凹注视区域外部。这样的目前是为了使用户可以相对于计算机生成现实(GCR)环境中移动,并且使用户感知到的运动与前庭系统(vestibular system)感知的信息相匹配。

同时,Vision Pro还会在通过传感器获得用户的生理数据和运动数据等的基础上,向用户提供相关联的视觉和听觉体验。

总的来说,该专利的创新之处在于,在具有处理器的电子设备上,首先确定了显示器的第一区和第二区,然后根据第一区和第二区生成3D环境的图像,识别对应于显示器第二区的每个图像的内容,以及对应于显示器第二区的每个图像的图像内容的对比度或空间频率中的至少一个。

苹果公开的秘密!万字解密Vision Pro 17项专利

上图列出了用户瞳孔和瞳孔的视野图,其中展现了眼窝,即视网膜中心凹下的部分、副眼窝(parafoved)和周边视觉区域(peripheral)。

Karl Guttag对于Vision Pro也有疑惑的问题:在长时间空气不流通的场景下,如果让人一直佩戴有一定重量、贴脸、且会散发热量的头显来看电影,体验感可能并不理想。飞机上的空乘人员、乘客可能会来回走动,每当有人靠近的时候,都可能触发Vision Pro的透视模型,打破观影的沉浸感。

除了调整中心凹视区域外部的内容对比度,苹果在今年7月发布的一项有关相对惯性测量系统(relative inertial measurment system)也对乘坐交通工具时产生的晕动症的解决有所帮助。

从苹果的介绍来看,传统的VR和AR设备无法将用户身体部分的运动与用户所处的参照系(reference frame)分离开来。

苹果公开的秘密!万字解密Vision Pro 17项专利

举例来说,佩戴传统VR和AR设备的用户在乘坐交通工具时,在交通工具从停止状态加速直到高速的过程中,用户并不会在交通工具内进行运动。这样VR和AR设备显示的图像,在用户看来就像是他正在以相同的速度和方向通过车辆行驶的场景。由于眼前庭不匹配,用户因此出现恶心等症状。

苹果的相对惯性测量技术可以确定用户设备相对于非固定参考系(用户乘坐的交通工具)相对的运动,从而将用户身体部分的运动与所处的参照系分离。

八、实时跟踪用户视觉方向,增加赛事比分信息,带来现场观赛体验

除了提升观影体验,苹果还通过增强现实技术提升观看体育赛事的体验。

从苹果的专利信息来看,沉浸式视频内容可以通过三维的方式呈现给用户。根据使用者观看现场活动的方向和观看位置的视觉数据,Vision Pro选择为用户呈现特定视野或观察视角的沉浸式视频内容。同时,Vision Pro中呈现的内容还会根据用户的移动而不断更新。

从功能上来看,该专利可以理解为“第一人称视角沉浸式观赛系统”。

苹果公开的秘密!万字解密Vision Pro 17项专利

从上图来看,体育赛事的视频内容会通过网络传输到Vision Pro上,经由Vision Pro的通信模块,一部分信息就会进入数据缓冲区,然后在显示在目镜上。另一部分信息会经由处理模块、以及传感器显示在目镜上。

如果说第一个专利强调增强了用户对体育视频内容的沉浸感受,那么第二个专利则为用户实时提供体育赛事现场情况信息,可以理解为“体育赛事视觉增强系统”

将时间倒回2022年6月,苹果和美国职业足球大联盟(MLS)宣布,Apple TV应用程序将独家播放2023以后的每场MLS比赛直播。为了进军视频业,苹果正希望将拓展MLS的呈现方式,使用户可以在Vision Pro中观看MLS比赛直播,同时感受到现场比赛的氛围。

苹果在专利背景信息中指出,目前用户已经习惯在电视中观看体育赛事中队伍名称、得分等补充信息,例如,在足球比赛转播期间,在球场上显示黄色的先下线,篮球比赛中,比分一般显示在右下角。

Vision Pro的传感器可以捕捉物理环境中的视频或者图像,而此时,Vision Pro的显示器处于透明或半透明状态,图像或视频的光线会通过这层透明或半透明的介质导入眼睛之中。此外,关于体育赛事的补充信息还会显示在体育赛事的视图之中。从下图可以看到,例如“玩家A进球”、“47:46”这样的场上比分、“射击速度66千米/小时”等“‘增强现实”内容的信息都会以黄色来突出显示。

苹果公开的秘密!万字解密Vision Pro 17项专利

Vision Pro仍然会面临一些问题。在续航方面,户外比赛需要处理大量的实时图像和数据,对电池续航和节能的要求会增加。

在技术方面,如果实现对体育赛事的AR呈现,Vision Pro需要高效处理大量的图像和数据,以提供给流畅的增强现实体验。同时,系统的实时跟踪和定位性能也需要高精度和稳定性,以确保在真实世界中的精准重叠。

苹果公开的秘密!万字解密Vision Pro 17项专利

九、提供沉浸式远程电话会议功能,支持与多人分享同一主题内容

Vision Pro不仅可以通过“空间音频”、“增强现实”、“用户化身”等方式为用户提供娱乐方面的沉浸感,在工作层面,还可以为用户带来沉浸式的电话会议体验。

苹果公开的秘密!万字解密Vision Pro 17项专利

该专利可以理解为沉浸式电话会议和远程呈现系统(immersive teleconferencing &telepresence system)。从美国专利局的信息来看,该专利申请涉及了基于会话描述协议(session description)和实时传输协议的程序。

下图描述了沉浸式电话会议和远程呈现系统的简化结构,图中可以看到,一群同时正在会议室中开会,房间中含有会议桌,以供实际出席的参与者使用。

此外,Vision Pro的相机能够以相对于相机不同的角度或视场捕获视频的多个单独的相机或镜头。当有人并未出现在会议室中,但还是希望加入电话会议。那么会议室中的参与者可以使用屏幕显示来自个人的共享演示文档或者视频流。未佩戴Vision Pro的参与者可以使用iPad和iPhone在远程来加入会议。

苹果公开的秘密!万字解密Vision Pro 17项专利

从上图的105b可以看到,远程参与会议的人可以使用ipad和iPhone等设备观看会议室的360度全景视图,还可以使用ipad或iPhone的手机摄像头拍摄视频。

苹果公开的秘密!万字解密Vision Pro 17项专利

十、虚拟键盘“隔空打字”,支持多设备协同完成文档内容

与工作场景密切相关的还有Vision Pro虚拟键盘带来的“隔空打字”功能。

查阅苹果的专利,在过去几年中,有多个专利涉及到虚拟键盘的“隔空打字”功能。苹果今年3月发布了一项关于“用户扩展现实(XR)系统的多设备连续性”的专利,也就是一种“多设备协同输入装置”。

该专利允许使用iPhone、iPad、Mac的用户将正在操作的文档传输到Vision Pro之中,允许用户在扩展现实中完成该文档。接着Vision Pro可以通过检测用户手指运动来进行输入。

苹果公开的秘密!万字解密Vision Pro 17项专利

从FIG2中可以看到,iPhone设备将其内容传输到Vision Pro上,用户佩戴Vision Pro后,前方会出现应用程序窗口,其中包括文件管理应用程序(file mgr app)、浏览器窗口(browser window)、内容编辑器窗口(content editor window)、媒体播放器窗口(media player app window),iPhone原本输入的内容可以在内容编辑器窗口查看到。

从FIG5中可以看到,Vision Pro上的摄像头和传感器可以捕捉到iPhone的用户界面,然后Vision Pro中的处理器会将捕捉到的用户界面生成副本,然后会为用户重新创建一个文档,使其可以在Vision Pro所提供的显示界面中继续编辑该文档。

当Vision Pro接管了该文档的控制权之后,iPhone的显示屏可能会关闭或更改为低功耗状态。同时Vision Pro还可以在XR环境中打开多个应用窗口。

苹果在2020年被授予了一项名为“自适应输入表面”(Adaptive Input Surface )的专利,该专利与触敏输入(touch-sensitive)有关,可以代替具有触觉反馈的虚拟键盘。触觉反馈可以通过静电电极的可控阵列提供给用户,这可以使用户感知到表面上不同水平的摩擦力。就可以有针对性地进行输入。同时输入表面移动感的致动器还会进一步为用户提供附加的触觉反馈。

苹果公开的秘密!万字解密Vision Pro 17项专利

一般而言,这个输入表面会接近于Vision Pro的传感器,该传感器会捕捉用户手指的位置。

苹果公开的秘密!万字解密Vision Pro 17项专利

十一、模拟人眼POV,单视场或立体场视图实时渲染到Vision Pro

最后要讲的三部分与Vision的摄像功能和相关的透镜镜片有关,其中不得不提的就是Vision Pro的3D摄像功能。

在传统的VR/AR头显中,场景摄像机(scene cameras)安装在头显的前面。但通常情况下,场景摄像机的入瞳以及视点(POV)与用户眼睛的POV存在很大的偏移,因此,摄像机的POV并不能代表人眼的POV。

因此,为了更好模拟人眼的POV,Vision Pro通过将相机的入射光瞳向用户的眼睛处移动来校正相机的POV,以更好匹配用户的POV,从功能的角度,该专利可以理解为“相机POV校正装置”。

Vision Pro的相机的二维阵列(two-dimensional arrays)可以捕获眼前真实世界场景的各个部分的图像,摄像机沿球面曲线或曲面定位(spherical curve or surface),以使摄像机具有不重叠的相邻视场(FOV)。同时,为了准确表示用户的视角,Vision Pro相机中的光学器件被配置为使阵列中相机的入射光瞳位于图像传感器处所形成相机图像平面的后面。同时,Vision Pro的相机也在传感器上形成优化的图像。因此,每个相机阵列都能从与用户眼睛基本相同的视角捕捉场景的视图。

苹果公开的秘密!万字解密Vision Pro 17项专利

在苹果发布会的展示中,使用者可以与图片中场景进行交互一直让人好奇,从苹果发布的专利中可以看到,虚拟现实系统可以向用户显示立体场景以创建深度错觉,并且计算机可以实时调整场景内容。

苹果公开的秘密!万字解密Vision Pro 17项专利

每个相机按照从物侧到像侧的顺序包括:第一透镜组,其中包括一个或多个透镜元件;孔径光阑(apertue stop)其中包括针孔(pinhole);第二透镜组,其中包括一个或多个透镜元件、多个镜头元件和传感器,同时,第一组透镜组中的透镜之间的间隙最小或者没有间隙。

这样安排的原因是希望使一个场景的光被反射到两个或多个摄像机上,这些摄像机分别为捕捉场景的各个部分的图像,镜子的作用是使摄像机的光圈更接近被摄者的眼睛。所捕获的图像经过处理后生成图像。用户在由自己的左右眼来查看所显示的图像。

而且真正实现3D摄影,这或许还只是入门级的要求。苹果在2021年4月公布一项关于360摄影和后期制作相关的专利,或许可以更好地解释Vision Pro如何实现了体验者们所言的“3D立体景观”。

苹果在专利中称,传统的180度和360度视频和图像都以平面存储格式(in flat storge formats)进行存储,同时使用等距柱状投影(equirectangular projections)或立方投影(cubic projections)来表示球面空间(sphrical space)。如果这些视频或图像在传统的编辑或图形应用程序中进行编辑,同时当这些视频或图像以圆顶投影、立方体或球面映射的方式分布和呈现时,容易出现大量问题。

此外,在对用球面合成或编辑的图像或视频进行处理后,容易出现后续镜头未对准或立体视觉不匹配等情况。然而苹果的专利弥补了这一遗憾。

目前Vision Pro获得专利会将单视场(monoscopic)或立体180度或360度的静态图像或视频图像从主机编辑或视觉效果软件作为等距柱状投影或其他球面投影传输同时运行的输入的方法和系统。同一设备上的软件程序,可以从有线或无线链接的头戴式头显的方向和位置数据,并同时将该方向代表的代表性单视场或立体场视图实时渲染到Vision Pro中。

说到这或许就可以解答如何形成3D立体景观了,但苹果并未止步与此,苹果在专利中还进一步想到了关于Vision Pro拍到的照片和视频如何进行后期制作,虽然苹果没有在WWDC23的预告中展示这方面的功能。

简单来讲,Vision Pro使用GPU缓冲区来接收图像数据,同时这个GPU缓冲区还与媒体操作的应用程序相关联,可以获取到显示设备的方向数据(orientation data),这样利用获得的图像数据和方向数据,Vision Pro的屏幕上就可以显示出预览图像。需要指出的是,当媒体操作应用程序并修改图像数据时,所述的预览图像会被动态修改。

苹果公开的秘密!万字解密Vision Pro 17项专利

十二、增加集成板块,安装多种传感器,告知外界头显正在拍摄

此前谷歌眼镜由于会在对方不知情的情况下对其进行拍摄而受到外界的诟病,苹果在下面这项专利中为Vision Pro增加了集成板块(integrated part),该集成板块可以让外界知道头显正在拍摄,简单来讲,就是“传感器捕捉与指示装置”。

从专利信息来看,苹果在Vision Pro安装上许多传感器,首先是,三维传感器,三维传感器下面又分为多个类别,例如三维图像传感器(three-dimensional sensors)、结构光传感器(structured light sensors),当目标被光束照射产生的光点的三维图像数据被三维图像传感器捕捉到,这时Vision Pro中的相机就会对图像进行拍摄。

苹果公开的秘密!万字解密Vision Pro 17项专利

其次,Vision Pro中还有三维激光雷达传感器(the-dimensional lidar sensor),可以理解为一种光检测和测距的传感器(light detection and ranging sensors);三维射频传感器(three -dimensional radio-frequency sensors)或者收集三维图像数据的其他传感器。

最后还有实现跟踪传感器(gaze tracking sensors),其中就包括基于图像传感器的视线跟踪系统。(gaze tracking system based on an image sensor)。

讲完了Vision Pro中的传感器,Vision Pro中的发光组件(light-emitting component)可以用来指示相机的当前操作模式。

苹果公开的秘密!万字解密Vision Pro 17项专利

从上图来看,Vision Pro采用了两种设计分别是圆形指示器设计、八角形指示器设计(Octagonal Indicator Design)。当相机在捕捉运动图像的时候,指示器变为红色,当相机没有捕捉视频时,指示器就可以为绿色或者黑色。

十三、双向镜和单向镜间自由切换,EyeSight可实现自动自动淡入、淡出功能

压轴出场的是Vision Pro的Eyesight功能,在WWDC23上,相信很多人对Vision Pro双向镜与单向镜的切换感到好奇,在WWDC23小组讨论中,Vision Pro的首席开发人员Mike Rockwell谈到了EyeSight背后的技术。

据悉,Eyesight的想法可以追溯到苹果前首席设计师Jony Ive,事实上Meta曾在2021年展示过带有假视觉的原型。

EyeSight功能简单来说,就是外部的显示屏可以实时显示用户的眼睛。然而实现该功能并非容易,一方面传统的2D显示器在显示眼睛时会显得不自然。于是以Mike Rockwell为代表的开发人员想到了制造一种弯曲的透镜显示器,这种显示器可以为每个观察Vision Pro外显示屏的人呈现独特视图。

在WWDC23中,Vision Pro的效果展示部分,也可以听到该头显屏幕使用了一种名为“Lenticur ”的透镜。2021年,Patenltly Apple发布了三篇关于相关的专利报告。

苹果公开的秘密!万字解密Vision Pro 17项专利

今年5月,在一项在Lenticur透镜显示图像的方法的专利被公布出来。从专利信息来看,Vision Pro离线后会生成静态网格,传感器会实时将拍摄对象的纹理信息映射到固定的网格之中。在离线的过程中,被拍摄对象的纹理信息和3D网格信息(3D mesh information)可以用于渲染对象多个视点的UV贴图(UV map),这样就完成了3D建模。

Vision Pro开发人员在分享中曾提及,而这些视图数据有两大主要数据源,一是头显中眼动追踪摄像头捕捉到的画面信息,二是苹果使用数字角色,这个数字角色是佩戴者的3D面部扫描的帮助下预先生成的。

从图1A和图1B分别显示了Lenticur显示器的3D前视图和顶视图。Lenticur显示器包括显示面板、该面板的材质可以是LCD、OLED、DLP、LCoS(硅基液晶)。同时,可以看出Lenticur使用了柱面透镜,这种透镜本质上一组放大透镜,特点是可以改变图像的宽高比,为每个观察Vision Pro外显示屏的人呈现独特视图。

苹果公开的秘密!万字解密Vision Pro 17项专利

图210可以是视网膜投影仪系统(retinal projector system),其将左图像和右图像逐像素扫描到用户的眼睛之中。为了扫描图像,投影仪还会·生成光束,这些光束被引导反射组件(reflective components),反射组件会将光束重新引导到用户的眼睛之中。

苹果公开的秘密!万字解密Vision Pro 17项专利

EyeSight还包括自动淡入和淡出眼部区域的功能,这取决于用户是在沉浸式内容中还是与附近的人进行互动。自动淡入可以理解为,当有人靠近用户时,此人会自动出现在视野中。

Vision Pro的镜片中带有涂层,就像太阳镜和滑目镜这类产品一样,可以产生单向镜面效果。但是这也就造成一个问题,当使用者佩戴太阳镜、滑目镜这类产品时,由于涂层不够透明很可能会使组件无法有效运行。

苹果公开的秘密!万字解密Vision Pro 17项专利

Vision Pro使用了红外透明单向镜,这款单向镜使用了支撑结构(support structure)的材料,这种支撑结构可以支撑材料层,使得材料层将外部区域和内部区域分开。

同时,光学器件可以与材料层重叠,这样可以实现该效果的光学组件包括可见相机的可光组件和诸如红外发光器件、光红外发射器的、红外光传感器的红外组件等可以穿过材料层,同时被红外透明单向镜的反射外观隐藏而不被看到。

结语:打造虚拟交互新模式,Vision Pro有望掀起XR领域热潮

从上文深扒Vision Pro 13项功能展示中背后专利可以看到,无论是空间窗口、空间音频等都为用户带来了“空间计算”新体验,同时,EyeSigtht功能一改传统XR设备“隔绝式”交互方式,使得佩戴者既能实时看到外部情况,还能在有人靠近的情况下,与现实中的人进行交互,打造了虚拟交互新模式。

XR发展已有10余年的时间,这期间虽然一直缺少爆款级产品出现,但是由于以苹果、Meta、谷歌为首的科技巨头的“押注”,XR领域一直受关注度较高,与之相关的新专利、新产品、新场景也在持续发布。作为苹果“十年磨一剑”打造出来的现象级产品Vision Pro有望掀起XR领域的热潮,进一步扩大XR设备的市场规模。