用AI抠图 谷歌新应用让你成为各大视频的“主角”

白鸽人工智能2018/03/02

智东西(公众号:zhidxcom) 编 | 白鸽 智东西3月2日消息,据Tech Crunch报道,今日,谷歌 […]

智东西(公众号:zhidxcom)
编 | 白鸽

智东西3月2日消息,据Tech Crunch报道,今日,谷歌为You Tube添加了一项新的AI功能。即通过构建的卷积神经网络,让用户拍摄视频时可自动更换视频背景(抠图)。

123

据悉,抠图是一门应用了几十年的特效技术,不过做起来很费时间,也很复杂。如在拍电影时,导演会让演员在绿幕前表演,之后使用计算机的数字特效更换绿屏。此前,因计算机在一秒内至少需要计算30次,所以在移动设备上想要更换普通的RGB图像,也不是很容易。如此可见想要更换视频背景的难度。

谷歌工程师们则认为这是一个挑战,并为此建立了一个卷积神经网络结构,使其通过数千张被标记的图片进行训练。

image5

通过训练,该神经网络可以分辨脸部特征,如眼睛、头发、眼镜、嘴等部位的特点,并将这些特征与其它东西区分开来。为了做到这一点,谷歌工程师对其进行了一系列的优化,从而降低了需要压缩的数据量。此外,它还将先前的计算结果作为下一步的计算基础,尽管它看起来有点作弊,但却可以进一步降低移动设备的负荷。

在研发该功能中,其具体的任务是制作一个二进制蒙版,以计算从前景到背景进行分离的每一帧视频所用的时间。其中,实现计算跨帧蒙版的时间的一致性是关键点。目前的方法是利用LSTM或 GRU进行计算,但对于移动设备来说,这样操作是非常昂贵的。而谷歌研究人员则通过将之前计算掩码作为之后计算掩码的基础进行计算,从而保持时间上的一致性,如下图所示:

image7

(原始帧(左)在其三个颜色通道中分开,并与之前的蒙版连接,并被用作神经网络的输入来预测当前帧的蒙版(右))

而在视频分割过程中,还要实现帧到帧的时间连续性,同时也要考虑到诸如在拍摄视频过程中突然出现其他人物,以至于造成时间上不连续等问题。为训练其模型适应这些问题,谷歌研究人员通过以下几点对其进行优化:

1、清空之前的蒙版,训练神经网络在第一帧和第一个场景人物之间正常工作,并且模拟出了某人出现在相机中的场景。

2、将其转换为真正的背景蒙版,通过转换训练,可使神经网络将其调整到前一帧蒙版之前。

3、转换图像。该功能实现了在相机中进行平滑流畅且快速的图像转化。

这样做的结果就是其神经网络在移动设备上运行的速度非常快,如在iPhone 7上实现了运行速度100+ FBS,在Pixel 2上实现了40+ FBS,并且其更换背景的准确性非常高。

删除或替换背景工具对用户来说很具有吸引力,所以该功能的推出对于很多人来说都是一个好消息。想要体验该功能吗?遗憾的是,它目前只能让 YouTube Stories用户使用该功能。

原文来自:Tech Crunch、Google Blog