智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影
微软和Meta就像两列势不可挡的列车,以惊人的速度驶向前方。
智东西4月14日报道,继释放一系列大模型开源大招后,Meta AI的基础人工智能研究(FAIR)团队发布了首个AI动画绘图(Animated Drawings)开源项目,用AI技术轻松让各种人物涂鸦变成动画。
Meta创始人兼CEO马克·扎克伯格在Instagram上晒出了他女儿画的小人儿动起来的动图。
▲扎克伯格女儿画的小人儿动起来(图源:扎克伯格)
Meta AI发布了动画代码以及包含近180000张带标注的业余绘图新数据集,以帮助AI研究人员和创作者进一步创新。据Meta所知,这是第一个以此类艺术为特色的带标注的数据集。
为了方便人们探索开源动画绘图项目,Meta还发布了一个直观的操作步骤解说视频。
该项目的论文题目为《一种让儿童人物绘图动画化的方法》(A Method for Animating Children’s Drawings of the Human Figure),已被计算机图形领域国际顶级期刊Transactions on Graphics接收,并将在国际计算机图形顶级会议SIGGRAPH 2023上展示。
项目网站:http://www.fairanimateddrawings.com
论文指路:https://arxiv.org/abs/2303.12741
代码指路:https://github.com/facebookresearch/AnimatedDrawings
数据集指路:https://github.com/facebookresearch/AnimatedDrawings#amateur-drawings-dataset
一、开源草图转动画代码,让AI看懂人类的想象力
Meta的动画绘图项目始于2021年,当时FAIR研究人员想让计算机视觉的最新进展更直观,将人物画中的类人形象动画化。
人类的想象力如此广泛,画出的人物千奇百怪,可能很抽象,也可能因为是“手残党”所以创作出一些神奇的画风。对于人类来说,看懂别人的随手涂鸦没那么难,但让AI模型去理解一些各种独特甚至稀奇古怪的人物画作,压力就有点大了。
对此,FAIR研究人员设想使用目标检测模型、姿势估计模型和基于图像处理的分割方法来快速创建绘图的数字版本。然后可以使用传统的计算机图形技术对其进行变形和动画处理。
但是有一个问题:很难获得训练计算机视觉模型所需规模的人物画集。而且这些画还需要被标注好边界框、分割掩码、关节位置等信息。
另一种方法是综合创建绘图,这也有问题:生成方法需要大量样本数据来学习,而风格迁移方法可能无法捕捉到绘图与照片的所有细微差别,而且可能做不出像纸张折痕、擦除的线条、强光和阴影等实际绘图中会出现的一些变化。
为此,Meta研究人员从单张图形生成动画的任务构建为人体图形检测、分割、姿势估计和动画等一系列子任务,并创建了一个动画绘图演示。
创作者可在浏览器上公开访问这个动画绘图演示网站,上传他们的绘图,查看/更正一些标注预测,并接收由绘图中的类人角色的动画——完成所有这些任务,用时不到1分钟。
家长可以选择允许或者不允许Meta保留图像和标注以供将来研究之用,无论选择什么都不会影响该工具的使用。研究人员希望通过发布该演示最终能收集到10000张图纸来改进模型的性能。
虽然演示在说明中明确了人物形象的必要性,但用户还是上传了一些四足动物、鸟类、鱼类和许多其他形式。用户还表达了对获得更全面工具的期望,比如透明背景、支持不同的骨骼类型、多个交互角色、音效、背景风景和文本叠加等等。
感受到大家对将绘图变成动画的热情后,Meta决定将动画绘图演示使用的模型和代码的开源版本发布出来,激励更多开发者尝试和体验。
二、简单四步,让手绘人物动起来
如果你想尝试将自己画的人物角色变成动画,但不想处理下载代码和使用命令行,可以在浏览器登陆Animated Drawings网站。
网站地址:https://sketch.metademolab.com/
上传绘图后,用户可以选择调整检测到的边界框、分割蒙版和关节位置,并选择一个动作来制作动画。
其系统结合了经过重新设计的、根据真实世界物体照片训练的计算机视觉模型。由于绘画领域在外观风格上存在显着差异,因此Meta使用业余绘画数据集对模型进行了微调。
第一步,上传一张有类人角色的绘图,注意这个角色是画在一张没有线条、褶皱的白纸上,确保拍摄光线充足,手臂和腿不要叠放到身体上,同时不包含任何侵权信息。
第二步,调整角色周围框的大小,确保它正好框柱角色。
第三步,将角色从背景中分离出来,并突出显示它。如果角色的身体部分没有突出显示,可以使用画笔和橡皮擦工具来修复它;如果手臂或腿粘在一起,可以用橡皮擦工具将它们分开。
第四步,检查角色的关节。如果你的角色没有任何手臂,将肘部和手腕关节拖离角色很远,它仍然可以被动画化。
下一步便是将使用分割蒙版和这些关节位置,用动作捕捉数据来将你上传的角色动画化。你可以任意选择想让这个角色做出的动作。
如果你想自己下载和运行代码,可以到GitHub项目上按照指引步骤进行尝试。
代码指路:https://github.com/facebookresearch/AnimatedDrawings
Meta的动画绘图项目已经在macOS Ventura 13.2.1和Ubuntu 18.04上进行了测试。如果在其他操作系统上安装,可能会遇到问题。Meta建议先激活Python虚拟环境,比如用Conda的Miniconda,然后按照下述步骤下载安装。
首先,运行如下命令。
设置好后就可以制作动画了。如果一切都正确安装,屏幕上将出现一个交互式窗口。(使用空格键暂停/取消暂停场景,方向键及时来回移动,q键关闭屏幕。)
这背后,角色、动作、场景等等都由配置文件控制。你可以通过改变配置文件,导出MP4视频、动图等不同格式文件。
Meta训练了一个绘制的人形图形检测器和姿态估计器,并提供了从模型预测自动生成标注文件的脚本。为了让它工作,你需要设置一个运行TorchServe的Docker容器,GitHub上有详细的设置步骤说明。
设置完成后,只需输入一行命令,就能立即将图像转化成动画。
比如输入一个在纸上画的洋葱头人图片。
稍作等待,AI模型会对输入的手绘洋葱头人进行分析、检测、分割、操纵,并使用来自人类表演者的BVH(人体动作捕捉格式)运动数据对其进行动画处理,然后将生成动画保存成动图文件。
你还可以在场景中添加多个角色、添加手绘的背景图像或者使用不同骨架的BVH文件。
▲手绘背景图像
GitHub项目中也提供了创建自己的BVH文件的详细步骤。比如你可以用手机摄像头录下自己的跳舞视频,然后用Rokoko导出BVH,创建一个新的运动配置文件,并重新定位配置文件,以适应由Rokoko导出的骨架,然后就能制作出类人角色的动画版本。
三、Meta的业余绘图数据集策略:开放网站,审查过滤,对外共享
要教AI看懂各种手绘人物作品,需要让它学习大量的草图数据集。
而Meta今天分享的新数据集(在相关研究论文中有详细描述),研究人员和从业者可以构建工具来更轻松、更准确地分析业余绘图的内容,解锁新的数字-物理混合体验。
此前全球有超过320万人访问了Meta在2021年底发布的动画绘图演示网站,总计上传了670万张图片。然后人工审阅者过滤了参与者选择与Meta的研究团队分享的业余绘图集,执行了多个级别的过滤以确保高质量并实施了隐私保护措施,以尽可能减少滥用数据的可能性。
具体改进分为两步:首先,使用自监督聚类方法来识别和过滤域外图像,例如真人照片;其次,一家签约机构人工审查了剩余的图像,以确保它们符合标准。审稿人被要求检查图像是否是纸上的手绘图,至少有一个全身人形;还会检查确保图像不包含受知识产权保护的字符或任何隐私或低俗内容。因为评论者主要是说英语的人,所以包含非英语单词的图像被排除在外,以避免它们可能包含不适当的内容。
虽然Meta的演示只能做一组有限的动作,但动画绘图演示的许多用户提供了反馈,希望有更多功能,如多个角色、额外的动作、微笑、眨眼和注视提示。带有跳舞人物的动图是扩展开源代码和数据集以用于其他创意和教育目的的示例。
有了这些资源,其他研究人员可以添加到Meta分析和扩充业余绘图的方法中,以扩展原始演示功能。
这个数据集反映了现实世界的条件,例如模糊、硬阴影、褶皱表面和背景元素等,这些在数字绘图和高分辨率扫描中都是不存在的。数据集还包括边界框、分割蒙版和关节位置的标注——这些特征可以为模型提供更多方法来识别或动画化绘制的图形,对于研究人员非常有价值。
结语:开源激励AI技术探索,为人类创造力添上引擎
绘画是一种自然而富有表现力的方式,每个人都可以画出自己的作品。尤其是孩子的画作,总是天马行空、充满想象力,而用AI技术将这些静态的图片秒转动画,则将进一步打开想象力之门。
Meta正通过开源动画绘画项目的代码和业余绘画数据集,为更多有兴趣参与这类研究及体验的研究人员及创作者们降低开发门槛,使更多人能够更轻松地探索用AI技术补充人类的创造力。