智东西(公众号:zhidxcom)
作者 | 程茜 ZeR0
编辑 | 心缘
智东西9月26日报道,北京时间今日凌晨1点15分,年度“MR圈春晚”Meta Connect 2024大会正式拉开帷幕。
Meta CEO马克·扎克伯格穿着黑色T恤登台,紧锣密鼓发布MR头显Quest 3S、Llama 3.2大模型、雷朋智能眼镜、全息AR眼镜等新品。
扎克伯格亮出的首个硬件新品是Quest 3S,惊爆价299.99美元(折合约2110人民币)。
虽说性能比Meta首款消费级MR一体机Quest 3略逊一筹,但起售价直降200美元,约等于苹果Vision Pro的1/11,妥妥的性价比机皇!!!
大模型也重磅上新!Meta多模态模型Llama 3.2发布,包括90B和11B参数的视觉大语言模型,以及1B和3B参数的轻量级纯文本模型。
借助Llama 3.2,Meta AI推出全新多模态功能,能支持语音交互了,有多种音色选项(包括一些名人的声音)。扎克伯格现场演示与Meta AI语音聊天,非常丝滑。
还有被Meta称作有史以来最先进的AR眼镜——全息AR眼镜“Orion”。
英伟达创始人兼CEO黄仁勋已经尝鲜。
一、Quest 3S:亲民廉价版,售价300美刀,性能比Quest 3几乎无异
首先,平价版的Quest设备来了!
Meta直接将Quest 3S价格砍掉200美元(折合约1406人民币),还几乎做到了性能与Quest 3相差无几。
Meta Quest 3S 128GB版售价为299.99美元(折合约2110人民币),256GB版售价为399.99美元(折合约2813人民币)。而512GB的Quest 3为499.99美元(折合约3516人民币)。
两款头显采用的处理器一致,均为高通骁龙XR2 Gen 2芯片。价格大幅下降的关键就是Quest 3S将Pancake镜头更换成了Infinite透镜。
从现场演示来看,拥有4K显示屏的Quest 3S显示十分清晰,还支持杜比全景声(Dolby Atmos)环绕。
Meta重建了Horizon OS以实现空间计算,可以更好支持用户使用YouTube、Facebook和Instagram等基本2D应用。
Meta添加了空间音频,并改进了Passthrough(透视)的对比度和颜色,都使得其画面演示能更加逼真和身临其境。
扎克伯格宣布Meta正与微软合作,用Windows 11 PC来实现无缝虚拟桌面体验。
Meta已提供多屏幕支持,并且能够直接与显示器上正在发生的事情进行交互。例如,用户可以直接拖拽笔记本中的界面到Quest设备中。
为了创建更加逼真的元宇宙环境,Meta推出了Hyperscape,用户只需用手机扫描自己所在的房间,然后随时戴上头显都能“重现”这一房间。
这一头显设备能让你坐在前排座位观看音乐会、坐在家庭影院观看高清大片、进行健身等。
此外,Quest 3S还兼容Meta的数千款应用和完整游戏库,以及即将推出的Quest 3和3S独家游戏,如《蝙蝠侠:阿卡姆暗影》。
对于那些刚接触XR或者一直在等待Quest和Quest 2设备降价的用户而言,Quest 3S可能是更好的选择。
二、Llama 3.2:视觉模型赶超GPT-4o mini,1B端侧模型媲美Gemma
开源AI方面,Meta发布了全新多模态大模型Llama 3.2。
Llama 3.2有90B和11B两种参数规格的视觉大语言模型,还有能在设备端本地运行的1B和3B轻量级纯文本模型,包括预训练和指令调整版。
1B和3B模型支持128K tokens上下文,适配高通和联发科硬件,并针对Arm处理器做了优化。
3B模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于Gemma 2 2.6B、Phi 3.5-mini模型。1B模型的表现媲美Gemma。
90B和11B视觉模型是其相应文本模型的直接替代品,同时在图像理解任务上的表现优于封闭模型,如Claude 3 Haiku、GPT-4o mini。
比如问企业去年哪个月的销售额最高,Llama 3.2可根据可用图表进行推理并快速提供答案。
它还能使用地图进行推理并帮助回答问题,例如地图上标记的特定路径的距离。
视觉模型也能通过从图像中提取细节、理解场景,然后制作一两句话作为图像字幕来帮助讲述故事。
与其他开放多模态模型不同,预训练和对齐模型都可以使用torchtune针对自定义应用程序进行微调,并使用torchchat在本地部署。
11B和90B参数的多模态模型需要支持图像推理的全新模型架构。
Meta的训练流程由多个阶段组成,从预训练的Llama 3.1文本模型开始,首先添加图像适配器和编码器,然后通过大规模噪声对数据进行预训练,接下来在中等规模的高质量领域内和知识增强的数据上进行训练。
在后期训练中,Meta使用与文本模型类似的方法,在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。最终得到这一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。
对于1B和3B参数的轻量级模型,Meta使用了利用强大的教师模型来创建性能更佳的小型模型的方法,使得其成为首批能够高效适应设备的高性能轻量级Llama模型。
Meta通过缩小Llama现有模型的大小,同时尽可能多地恢复知识和性能,其采用了从Llama 3.1 8B中一次性使用结构化修剪的方法。
在后期训练中,研究人员使用与Llama 3.1类似的方法,通过在预训练模型的基础上进行几轮对齐来生成最终的聊天模型。
Meta正在分享首个官方Llama Stack发行版,将极大简化开发人员在单节点、本地、云和设备端等不同环境中使用Llama模型的方式,从而实现检索增强生成(RAG)和集成安全性的工具支持应用程序的交钥匙部署。
三、Meta AI:多种名人声音任意选,P图、实时翻译更方便
借助Llama 3.2,Meta AI有声音了。
现在,使用语音与Meta AI对话,可以让它回答你的问题或者讲笑话逗你开心。Meta在语音中还添加了很多熟悉的AI声音。如英国女演员Judi Dench等的声音。
扎克伯格现场对话了AI版数字AR/XR视觉艺术家唐·艾伦·史蒂文森三世(Don Allen Stevenson III),他对小扎提到的恭喜新书发表、创作感想等内容对答如流。
当被问到一个与史蒂文森三世本人毫无相关的农业问题时,AI版艺术家的回应也很符合人设,他称自己擅长设计和技术而非农业相关。
Meta AI还能直接看懂照片,用户可以直接在聊天界面中上传图片,AI就可以帮你解答你旅行中遇到的花是什么花、如何制作图片中这道菜等等。
编辑照片也不在话下,无需打开其它编辑工具,仅在Meta AI的对话框就能解决。用户可以直接告诉AI想在上传的照片中添加、删除或者更改什么内容,例如替换服装、更换背景等。
同时,当用户想分享照片到Instagram Story等社交平台上时,Meta AI还会根据照片的内容生成相应的背景图。
扎克伯格说,Meta正在测试一款翻译工具。该工具可以自动翻译短视频应用Reels中的音频,通过自动配音和口型同步,不仅能模拟说话者的声音来翻译,连口型都能对上。
这一功能首先将在Instagram和Facebook上进行小规模测试,将来自拉丁美洲和美国的创作者的视频翻译成英语和西班牙语,未来将会扩展到更多创作者和语言中。
Meta AI的图像生成功能还能帮用户在Facebook等平台上为自己“立人设”,如将自己的个人资料图片更换为超级英雄或者其他角色,还能为故事推荐标题。
面向企业,Meta正在将其AI工具扩展到数千家使用WhatsApp和Messenger英文版点击消息广告的企业。
上个月已经有超过100万个广告客户使用Meta的广告生成工具,并利用这些工具制作了1500万条广告。数据显示,平均而言,与未使用这些功能的广告系列相比,使用Meta生成式AI 广告功能的广告系列点击率高出11%,转化率高出7.6%。
四、雷朋智能眼镜:能记事,会观察,打破语言障碍
雷朋智能眼镜一直非常受欢迎,具备视频通话、流式传输内容、拍摄,抑或是听音乐、有声读物等功能。
这次雷朋眼镜重点升级了多项AI功能。
首先是对话变得更自然。用户只用在对话开始时说提示词“Hey Meta”,后面就可以直接连续提问,不用重复说很多次“Hey Meta”。
还有一个功能是帮用户记住事情。比如当用户飞到某个地方,询问在哪儿停车,眼镜会帮用户记住停车的位置。
用户也可以用语音设置提醒,3小时安全着陆时给妈妈发短信报平安。
它还能用来打电话、扫码。当双手不方便操作手机时,用户可以用Meta AI在WhatsApp和Messenger上录制和发送语音消息,同时保持在线状态。
此外,Meta AI能通过结合摄像头,为用户提供持续帮助。
比如当用户探索一个新城市,可以让Meta AI根据摄像头捕捉的信息询问用户在行走时看到的地标或获取下一步要看什么的想法。
它也能提供服装搭配建议,并实时掌握你的周围环境,比如建议用户考虑“刚才路过的那条珍珠项链”、“右边的黑色连衣裙”。
或者在一个杂货店并试图计划一顿饭时,用户可以让Meta AI根据自己在过道上行走时看到的东西来帮忙弄清楚要做什么,以及手里的酱料是否与它刚刚建议的食谱搭配得很好。
现场还演示了流畅的实时语音翻译功能,戴着眼镜就能打破语言障碍,实现跨语种交流。
Meta将继续添加更多语言。
雷朋智能眼镜可使用“be my eyes”应用,将视力有缺陷的人与视力正常的志愿者相连,以便志愿者能借助眼镜和POV视频通话,轻松看到视力残障人士的视角并告知周围环境,或者在日常任务中提供实时、免提的帮助,例如调节恒温器或分类和阅读邮件。
Meta正推进与Spotify和Amazon Music的整合,并与Audible iHeart建立新合作伙伴关系,使用户能随时随地使用语音搜索、发现和播放内容。
此外,Meta还发布了一款限量版Shiny Transparent Wayfarer透明镜框,并将EssilorLuxottica的全新UltraTransitions GEN S镜片系列引入雷朋眼镜系列,能快速适应所有光线条件。
五、Orion:迄今最先进AR眼镜,全息显示屏,手腕神经接口
最后,扎克伯格现场开箱,拿出Meta眼中的“迄今最先进的AR眼镜”——Orion。
AR眼镜兼具便捷、即时性、大显示屏、高带宽输入、情景化AI等优势。它不受手机屏幕限制,能借助大型全息显示屏,将物理世界当成画布。
尽管雷朋智能眼镜开创了AI无显示屏眼镜类别,但XR行业还在翘首以盼真正的AR眼镜——一款将大型全息显示屏和个性化AI辅助优势结合到舒适、全天候可佩戴的产品。
Orion正为此而生。
经过数十项创新,Orion的组件被压缩到几分之一毫米。
扎克伯格称它是“世界上从未有过的高端眼镜”,“技术上很疯狂”,在不同照明条件下,大到能显示一个电影屏幕或多个显示屏幕,覆盖物理世界全息图。
它拥有迄今为止最小AR眼镜中最大的视野,支持从多任务窗口、大屏幕娱乐到真人大小的人物全息图,所有数字内容都能与物理世界视野无缝融合。
Meta AI智能助手可在Orion上运行,理解用户在现实世界上看到的东西。
比如用户可以把摄像头对准冰箱,让Meta AI根据里面的东西提供食谱建议,或者边洗碗边调整数字家庭日历,边给朋友打视频电话。
也可以进行免提视频通话,实时与朋友和家人保持联系,还可以通过WhatsApp和Messenger查看和发送消息。
以前需进行的拿出手机、解锁、找到合适的应用程序、让朋友知道用户快吃晚饭了这一系列繁琐步骤,现在一副眼镜就能轻松完成所有操作。
如果想和远方的人相见,他们的虚拟影像会被即刻传送。
由于配有透明镜片,人们戴上AR眼镜,依然能看到彼此的面容和神情,或者进行眼神交流。
为了制作这种显示屏,眼镜腿上的投影仪将内容投射到纳米印刷镜片上,使它们不仅能够在2D空间投射图像,还能在3D空间投射图像。
Orion支持手势追踪、眼动追踪,基于手腕的神经接口可理解用户与设备交互的手势。
手势操控时,你可能不想在公共场合手舞足蹈招一堆人围观,而操作Orion的动作非常轻微,不会影响到周围的人。
Meta已经向少数人展示了它,这些人评价说这是他们见过的最疯狂的技术。
Meta将Orion称作其开发过的“最精致的产品原型之一”,但它暂时不会进入消费者手中。其团队决定先专注于内部开发,继续快速构建并继续突破技术界限,以开发出更好的消费产品。
Meta向自家员工和选定的外部用户提供Orion的访问权限,以便其团队可以学习、迭代和构建消费者AR眼镜产品线,计划不久后开始出货。
目前Meta主要关注三件事:1)调整AR显示质量,使视觉效果更加清晰;2)尽可能优化,让外形尺寸变得更小;3)规模化,使其可负担。
结语:不卷高端,卷起性价比
“元宇宙”概念降温了,但用智能硬件打开虚实融合之门的产业探索才刚刚起步。
便宜、便携、舒适,智能,成为今年MR/VR/AR新品的共识,这在今天的Meta Connect大会上再度得到印证。
尤其是便宜。连坐拥大批死忠“果粉”的苹果,其Vision Pro都因昂贵的售价栽了跟头。
知名市场研究机构IDC预计第三季度美国本土的Vision Pro销量将比第二季度大幅下滑75%,全年全球销量难破50万台大关。知名分析师郭明錤也认为,高昂的价格阻碍了消费者。
苹果研发平价版头显的消息已频频传出。Meta也被曝取消高端头显“La Jolla”的开发计划,原因是未能将产品成本控制在1000美元内。
国内MR/VR/AR硬件同样在快速更新迭代,没有盲目复制苹果Vision Pro卷向高端,而是从技术路线和应用场景上构筑差异化竞争力。
字节跳动旗下PICO上个月推出其首款MR一体机PICO 4 Ultra,相较前代产品PICO 4/4 Pro全面升级,起售价4299元。
深圳仙瞬科技开发了超微型化的全球首款具备隐形显示功能的智能眼镜,体积小到能轻松集成至普通眼镜框架内,使现有设备能更好融入AI。
IDC预测2024全年中国AR/VR预计出货60.2万台,同比下滑17.1%;从今年年底开始,将会有更多手机厂商入局MR领域,并将于2025年集中推出首款产品。