Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图

智东西(公众号:zhidxcom)
编译 | 夏舍予
编辑 | 云鹏

智东西7月4日消息,根据外媒IEEE Spectrum报道,Meta公司的研究人员发表了一系列关于MAE(masked auto-encoder,掩码自编码器)的新论文。MAE系统可以通过SSL技术(self-supervised learning,自主监督学习)预测数据中缺失的部分,进而还原残缺的文本、图像、视频和音频。

MAE系统还原不同类型文件的通用原理,就是根据已有信息预测缺失内容,再用其它数据弥补。

通过这项技术,AI或许能够自动进行数据标注(ground truth),而不用再通过人工标注。这就意味着,AI模型的学习效率得到很大提升,这或许为AI模型的未来发展带来了新思路。

一、智力的本质是预测能力,SSL技术可以提升AI智能水平

MAE系统使用了SSL技术(Self-supervised Learning,自监督学习)。SSL是指用于机器学习的标注源于数据本身,而非来自人工标注的一种技术。

MAE系统可以从非常零散的残缺数据中预测出丢失的那些部分,从而还原图像、视频和音频。而这就是MAE系统构建“世界模型”(world models)的过程。

Meta的首席AI科学家扬·勒昆(Yann LeCun)说:“SSL技术是AI系统构建‘世界模型’(world models)的前提条件。只有具备SSL功能后,AI才能够像人类一样具备理性和常识,获得知识迁移的能力,适应不同环境。”扬·勒昆表示,如果MAE系统可以预测数据中丢失的那部分,这就意味着AI能够理解世界是三维的,拥有一定程度的分辨能力,才有可能预测人的复杂行为。

扬·勒昆(Yann LeCun)告诉外媒IEEE Spectrum:“我们想创造能像动物和人类一样进行自主学习的AI模型。”扬·勒昆认为,智力的本质就是一种预测能力。这个观点得到2018年图灵奖得主本吉奥(Yoshua Bengio)的认可,本吉奥也认为对世界进行推理预测的能力是智力的关键。

Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图

▲左边是提供给MAE模型的训练图,中间是预测结果,右边是原图

二、填字游戏新玩法?AI帮你补全画面

Meta的AI部门的研究人员罗斯·吉尔希克(Ross Girshick)与人合著了一篇关于MAE系统原理的论文。论文中提到,Meta的MAE系统建立在一种叫Transformer的神经网络算法上。Transformer是一类基于注意力机制的神经网络算法。这种算法可以让AI模型减少对外部信息的依赖,捕捉数据或特征的内部关系,优化模型训练结果。

Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图

▲关于MAE原理的论文

在处理文本数据时,MAE系统将会检测一个缺乏某些数据的文本数据库。MAE系统检测到这些缺失的文本后,会用新的文本块补充丢失的内容。

这一技术同样可以迁移到MAE系统对静态图像的处理上。研究人员将图像分解成多个补丁(patch)块,再让MAE系统弥补缺失的图像。罗斯·吉尔希克(Ross Girshick)说,这一点是受到了谷歌关于ViT模型(Vision Transformer)的启发。

ViT模型(Vision Transformer)的基本原理就是将Transformer架构应用于计算机视觉领域。具体而言,ViT模型可以将图片切分为相同大小的补丁块,给每个补丁块编码后再组成图像序列,机器可以识别这种图像序列。基于这种启发,MAE系统在预测缺失的图像时,会把图像分解成很多小补丁块,再用新的补丁块填充丢失的内容。

三、文本和图像信息密度不同,遮盖75%图像实验结果最好

该团队发现,因为文本和图像的信息密度不同,文本和图像得到最佳还原效果所需遮盖的数据比例也不同。MAE系统还原静态图像时,掩盖75%的数据会得到相对最好的结果。但对于文本而言,这个数字是15%。

Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图

▲研究人员发现,遮盖75%的图像实验结果最好

语言是人类生成的具有高度语义和信息密集度的符号。每个字符都包含了很多含义,如果句子中丢失的单词过多,那么MAE模型会预测出很多种结果,准确率不高。与此对应,图像是具有大量空间冗余的自然符号。例如,在同一张图片上,区域相近的图片像素特征相差不大,所以通过模型可以从相邻的图像块中恢复丢失的图片信息。

罗斯·吉尔希克解释说,MAE系统包含两个工作步骤。首先,MAE系统会使用编码器通过数据集学习像素之间的关系。然后,MAE系统会使用解码器从蒙版开始重建原始图像。这两部分完成后,MAE系统会丢弃编码器,转而使用解码器用于分类和目标检测等视觉任务。

罗斯·吉尔希克说:“MAE系统的解码器可以完成物体识别等任务,这对我们而言是巨大的收获。”这意味着,通过MAE系统,机器可以自动为数据标注(ground truth),而不用人工标注数据。

四、MAE系统可节省95%的视频计算成本

当MAE系统用于处理视频时,研究人员会遮盖每帧画面中95%的数据信息。视频的帧与帧之间有很高的相似性,这意味着视频比静态图像有更多的信息冗余。Meta研究人员Christoph Feichtenhofer说,通过这种方法,MAE系统可以减少95%的计算成本,这就是MAE系统在视频计算上的一大优势。他还说,这个技术或许可以用于Facebook和Instagram上的内容审核和任务分类。

而对于音频的AI学习,Meta AI团队发现了一个巧妙的方法。他们把音频文件转化为了声谱图,换言之,他们把声音转化成了图像。然后他们会再用与图像相同的处理方法,把声谱图的补丁掩盖起来再进行训练。尽管该模型目前只能处理几秒钟的音频片段,但已经取得了很好的效果。

音频系统的工作人员Bernie Huang说,这项技术在音频上的潜在应用包括音频分类、改善语音通话、更好地找到压缩音频文件的方法等。

Meta让AI视频计算成本暴降95%,图片遮住一半AI也能猜出原图

▲MAE框架

结语:MAE系统或有更大应用空间,但要谨慎考虑准确性

MAE系统可以预测残缺数据中缺失的部分,进而还原文本、图片、视频和音频。

这个技术有很大的想象空间和应用潜力,例如复原考古遗迹照片、弥补数据丢失的历史文件等。MAE系统不仅可能在AI领域获得突破,而且也可能为其它领域带来惊喜。

但是MAE模型也有缺点,基于目前实验的准确性不可能达到100%,该模型可能会生成并不存在的内容。人们在使用MAE模型还原数据时,需要谨慎考虑和研究这些问题。

来源:IEEE Spectrum