人类已经无法控制的相机:谷歌AI相机Clips解密

智东西(公众号:zhidxcom)
文 | Lina

昨天凌晨,谷歌在一年一度的秋季硬件发布上一口气连发7款新品,Pixel 2手机、笔记本、翻译耳机、智能音箱、AI相机……这场“硬(件)货十足”的发布会贯穿着谷歌“人工智能+软件+硬件”(AI+Software+Hardware)的中心思想。

Pixel手机、音箱、笔记本一类的产品我们基本都在此前的爆料中有所耳闻,反倒是AI相机Clips、无线翻译耳机Pixel Buds等新奇有趣的AI新品让人眼前一亮。

人类已经无法控制的相机:谷歌AI相机Clips解密

尤其是Clips,这是一台可以通过人工智能技术自动选择场景、自动拍摄录像、自动保存的小型相机,你只需要把它打开了放在一边,它就能自动为你记录下它认为有意义的瞬间。

一、一款主打家庭场景的AI相机

Clips是一款只有5厘米高、60克重的方形相机,售价249美元(折合1657元人民币)非常小,也非常轻便。全机上下只有一个快门按钮、一个镜头、一个拍摄时会亮起的LED灯,套上自带的塑料外壳后可以立在、挂在、勾在家庭里的任何一个角落。

人类已经无法控制的相机:谷歌AI相机Clips解密

通过扭动镜头打开相机后,它能以15帧每秒的频率录制拍摄,拥有一个1200万像素的传感器与130度的广角镜头,能够自动对焦,有16GB的存储空间,电池续航时间为3小时——不过,没有内置麦克风。

最重要的是,当你把Clips放在客厅里,拥有AI技术加成的它会自动“观察”镜头里的世界,当出现有趣的场景——比如你家的小baby晃晃悠悠蹒跚学步,又或是家里的小奶猫饶有兴趣地玩着线头——时,自动开启录制拍摄,录出几秒到十几秒不等的的视频(而短视频片段在英语中就叫“Clips”,谷歌起名字一向这么耿直),用户可以选择在手机APP上将这些段视频剪辑、导出为视频、照片、GIF、或是动态照片。

人类已经无法控制的相机:谷歌AI相机Clips解密

谷歌将这款相机的场景定位是家庭——更准确来说,是室内环境中的婴幼儿跟宠物。当你想要专心陪孩子玩耍,又或是上班外出错过了精彩瞬间时为你留下这一刻。

而对于那些担心自己隐私安全的用户,谷歌表示,整个机器学习的拍摄、计算、存储过程都是在相机终端进行,和网络没有任何数据传输。只有当你想要导出照片时,才需要在手机上下载谷歌App,在App内选择编辑、导出、或者删除。

Clips可以跟谷歌亲儿子Pixel手机配合使用,也适配于三星S7/8,以及iPhone 6/7/8等机型。不过Clips产品主管Juston Payne反复强调,Clip不是Pixel手机的附件,也不是任何东西的附件。Clips是一台独立的相机,跟其他所有的数码相机一样。

二、用AI自动寻找“有趣”的场景

正如前文所说,Clips将会关注“有趣”的场景,暂时为止它认为有趣的事物包括:人脸、宠物。

你可以把Clips的“思维”过程想象成这样:它睁开眼睛,看着眼前的世界。接着问自己一系列问题,“这个世界里有脸吗?-这是我认识的脸吗?-这张脸上眼睛是睁开的吗?是微笑着的吗?-这里的光线足够充足吗?-这个镜头模糊吗?……”最终确保照出来的片段是好的、值得拍摄的。

而需要Clips自主判断这些内容,自然少不了我们天天都在提的机器学习。

正如其他的每个AI模型都需要接受大量数据训练一样,Clips使用的模型也需要。但是Clips面临着一个艰难的问题——没有合适的训练数据。

世界上有大量早已标记好的数据集,拿ImageNet来说,里面成千上万张带有“猫”或者“狗”标记的图片数据可以迅速训练出一个能辨别猫狗的神经网络,但是,世界上没有任何一套机器训练数据集里有“这有一个婴儿在地板上爬的短视频,这是他父母想要保存的片段”、“那儿有一段小猫在玩毛线球的视频,看上去真可爱”的带标记数据。没有训练数据,AI神经网络无从谈起。

不过,谷歌毕竟是谷歌,它一方面有着强大的研究团队,而另一方面,别忘了它拥有世界上最大的在线视频网站——YouTube。

目前YouTube上已经有超过10亿个在线视频,并且用户每日还持续上传超过30万个新视频,这些视频都是绝佳的机器学习素材(尤其是对于宠物猫而言)。谷歌的Clips团队与一大批视频编辑者与图像评估团队合作,通过人工标记、评分视频的方式为Clips提供训练素材。

而且,在今年5月的I/O开发者大会上,谷歌就宣布升级了Google Photo图片库软件:现在有了人工智能与机器学习技术的加码,Google Photo可以自动帮你在众多照片中选出清晰、不重复、照得好的照片。

随着使用得越来越多,Clips也会越来越聪明,慢慢地自己“学会”哪些是你关心的人、哪些是你关心的场景。下次你带着孩子去公园一起玩的时候,Clips就只会专注于拍你家孩子,而不会被别的小孩的脸“分心”。

人类已经无法控制的相机:谷歌AI相机Clips解密

Clips产品主管Juston Payne表示,现在Clips已经非常擅长寻找人和宠物的图像了(或者更确切地说,是宠物猫、宠物狗——宠物猪暂时不在考虑范围)。但它还只是局限在家庭场景,当你外出度假、旅行、跳伞、潜水时,Clips就无法判断哪些图像是值得拍摄的了。

未来,谷歌计划在更多的终端设备上拓展AI功能,以支持更多的应用场景。Clips是谷歌这个“万物AI”宏伟计划的一个小尝试,它还很贵,而且没有那么聪明,但它已经是第一步了。

三、隐私忧虑、端智能与VPU

当然,面对这么一个由AI全自主控制的相机,隐私问题可以说是房间里那只粉红色的大象,你完全无法避而不谈它。

面对这个问题,谷歌表示:“我们知道隐私真的很重要,所以我们一直在为Clips的用户、他们的家人、朋友们考虑。所以Clips是根据以下原则进行设计的:

1、Clips看起来像一个相机——这就意味着所有看到它的人都知道它是一个相机——当Clips开启时,有一个LED灯将会亮起,让每个人都知道它正在运行当中。

2、当你在室内环境里,和你的家人或者亲密朋友在一起时效果最佳。因为Clips能够自动学会识别与你相关的人物的脸,并帮助您捕获更多时刻。

3、最后,整个机器学习的拍摄、计算、存储过程都是在相机终端进行,和网络没有任何数据传输。跟所有相机一样,只有当你想要导出照片时,数据才会离开你的设备。”

至于这三点能不能说服用户……那就不好说了。

四、VPU又是何许人也?

隐私问题放一边,上文提到的第三点非常有趣。为了达到在相机终端上就能实行图像的计算、识别、不需要连接到云的能力,Clips里内置了英特尔旗下的Movidius Myriad 2 VPU视觉处理芯片。

人类已经无法控制的相机:谷歌AI相机Clips解密

在这里解释一下,Movidius是2016年9月被英特尔收购的硅谷公司、Myriad 2是这块芯片的名字,Myriad 1曾经被用在谷歌的Tango平板里、VPU则是Vision Processing Unit视觉处理单元的缩写。

正如智东西此前一系列关于AI芯片的报道中提到的,现在的芯片/处理器实际上所指的是一个“处理器包”封装在一起,这个计算包专业一点说叫SoC(System-on-a-Chip),高大上的说法是“计算平台”。

根据分工不同,很多专用功能的处理单元加进来,比如我们最熟悉的是GPU,现在这个包里的独立单元数量已经越来越大,比如ISP(图像处理)、Modem(通信模块)、DSP(数字信号处理)、以及苹果的A11、麒麟970中加入的神经网络引擎、NPU等(AI应用)不同的数据进来,交给不同特长的计算模块来处理将会得到更好的效果、更高的能效比。

不过,虽然都是“U”,但VPU与GPU、NPU不同。它不是(或者说不只是)一个模块,它本身就是一个SoC,内部集成有多个主控RISC的CPU、许多硬件加速器单元和矢量处理器阵列,专门为视觉海量像素设计的高性能影像信号处理器(ISP),以及丰富的高速外围接口。

VPU针对视觉处理应用而设计,在性能、功耗和功能性方面都有特别的强化,使之更贴近于实际的应用需求。尤其是在功耗方面,按照Movidius CEO Remi El-Ouazzane的说法,相比能够提供同等效果的GPU,Myriad 2的功耗低了最少10倍——对于Clips这样一个重量仅为60克的小相机来说,功耗与续航问题必然是重中之重。

人类已经无法控制的相机:谷歌AI相机Clips解密

Myriad 2的芯片设计包括12个SHAVE 128位处理器+SIPP过滤器,前者对原始影像数据做计算处理,每颗处理器都运作在600MHz的频率下,而且有超频潜能;后者是SIPP是(Streaming Inline Processing Pipeline filters)硬件加速期的缩写,可完成一些预设的影像处理任务,比如将来自不同类型摄像头的数据融合到一起,或者将多个视频内容接合到一起。此外,Myriad 2 VPU上还有2个32位RISC处理器用于芯片管理,有效降低延迟。

人类已经无法控制的相机:谷歌AI相机Clips解密

(Myriad 2的其他参数)

当然,除了传统的影像处理能力外,Myriad 2最重要的就是AI能力,对于Clips来说,也就是相机的智能理解能力。除了芯片本身,Movidius还设计一系列的补充算法与SDK,使得Myriad 2支持3D建模和扫描、影像搜索、室内导航、以及手势输入、脸部识别、实物探测等——想必这次和谷歌的合作也使得两家共同研发了更多功能。

基于这样的架构设计,Myriad 2芯片采用台积电28纳米工艺制造、面积是6.5mm、厚度1mm,支持六个60帧全高清视频信号输入,而功耗在1.2W以内。

其实,这块Myriad 2芯片在2014年就发布了,大疆Phantom 4无人机中就集成了这块芯片。而且英特尔也在前不久(今年8月)推出了Movidius Myriad X新版VOU,性能效果都更为强大,至于为什么没有用在Clips上,可能是基于成本考虑、也可能是功耗考虑。(目前Myriad 2每块售价已经降到了10美元以下)

结语:AI相机仅仅只是个开始

Clips看似个毫不起眼的小玩意儿,但不知道大家有没有意识到,它是有史以来第一款完全由AI进行主动决策的消费级电子产品。从被打开的一刻起,人类就对它失去了控制,我们不知道它会选择什么场景进行拍摄、也不知道它为什么选择这个场景进行拍摄——就如同现在深度学习正在使用的种种神经网络一样,我们知道它们的效果非常好,但我们至今不知道为什么。

这既让人兴奋,又让人不免有些恐慌。

可以看得出来,端智能、端AI已经是大势所趋,无论是软件上各种机器学习算法的不断成熟,还是硬件上各类高性能低功耗AI芯片的诞生,无不推动着“万物AI”的脚步。继谷歌Clips这款AI相机之后,我们不难想象还有AI咖啡机、AI麦克风、甚至AI耳环、AI皮带的诞生。Clips的市场反馈好坏只会加速或暂缓这一趋势,但终究无法终止它,这仅仅只是个开始。


每日一头条

趋势·深度·犀利·干货,最专业的行业解读

深喉爆料、投稿:guoren@zhidx.com

人类已经无法控制的相机:谷歌AI相机Clips解密