原文链接:https://www.techbeat.net/article-info?id=4327
作者:seven_

最近AIGC领域的新工作几乎呈现一种井喷式的发展,借助AI模型天马行空的想象力,研究者们开始在各种图像和视频内容领域发力,本文介绍一篇发表在NeurIPS 2022 Dataset and Benchmark Track上的新工作。该工作并非是像近期提出的扩散模型去生成一些图像和视频,而是瞄准了计算机动漫创作方向,作者指出现有的2D动画片数据集存在画面构成简单且角色动作单调的问题,这使得它们不足以模拟真实的动画。

论文链接:
https://arxiv.org/abs/2211.05709
项目主页:
https://lisiyao21.github.io/projects/AnimeRun
代码链接:
https://github.com/lisiyao21/AnimeRun

为了解决这一问题,作者团队提出了一种新的大规模2D视觉一致性动画数据集AnimeRun,将开源的3D电影转换为2D风格的完整画面,同时保留有原始画面中移动的背景和多个主体角色之间的交互动作。为了提高数据集质量,作者遵循视觉一致性,为每一帧提供了灰度轮廓和彩色图片,同时提供了像素级别和区域级别的ground-truth,其中像素级别标签为光流图像,区域级别标签为图像分割图,如下图所示:


随后作者进行了一系列的数据集分析,分析结果表明,与现有的数据集相比,AnimeRun不仅在图像构成方面更加接近真实的动画数据,而且包含有更丰富、更复杂的角色运动模式。在该数据集的基础上,作者进一步提出了一个较为完善的Benchmark,并与目前已有的光流和片段匹配方法进行了实验对比,丰富了整体的实验框架。

一、引言

本文的核心灵感来源于计算机视觉任务中天然存在的视觉一致性(Visual Correspondence),尤其对于二维动画来说,找到相邻帧的精确视觉对应关系对模型训练具有很大的帮助。例如我们可以通过区域轮廓的一致关系将参考帧中的颜色分布传播到目标帧中实现视频自动上色。也可以使用像素一致关系对图像进行细粒度编辑进而得到帧插值模型。这些视觉一致性范式在自然场景中的数据具有非常好的效果,但其仍无法很好的适用于2D动画数据上。本文作者认为,这是因为自然图像序列中包含具有不同阴影和模糊的复杂纹理,而动画数据通常由具有明确轮廓线的平面彩色块构成,二者有本质上的域差距。因此本文针对2D动画提出了一个大规模数据集来缓解这一问题。

目前制作收集动画数据集的常用方法是使用计算机图形软件(例如Blender)将3D模型渲染成2D风格,这种方法可以快速合成大量的数据,而不需要为每个场景进行专门的调整。但是由于渲染模型固定,其不可避免地导致构图单调,因此在模拟真实的动画方面存在不足。鉴于这些缺陷,作者在制作AnimeRun数据集时使用了上图所示的流程,作者选用的原数据是具有工业级3D电影的完整场景,首先对其生成彩色图像和轮廓图,随后对视频序列进行密集光流估计和图像分割来得到像素级别和区域级别的标注图。由于选用的原数据包含丰富的背景信息,例如室内、雪山、矿山和森林,还含有复杂的交互动作,直接将其转换为2D风格会带来很多误差。为了解决这一问题,作者在保留电影中的主要角色和动作的前提下,系统地对每个电影剪辑进行一系列调整,以提高与2D动画风格的兼容性,并确保对应标签的准确性。

与现有数据集相比,AnimeRun具有同步背景变化的全场景动画,同时提供多个对象/角色交互和遮挡示例,而且包含有更复杂的角色运动。上图展示了AnimeRun与其他数据集的对比。作者总结本文具有以下三个方面的贡献:

  1. 作者通过将开源的3D动漫电影转换为2D风格,制作了该领域第一个全场景视觉一致性动画数据集

  2. 本文分别在像素级和区域级层面上提供了细粒度的对应标签。

  3. 作者在所提AnimeRun数据集的基础上构建了该领域第一个2D动画视觉一致性实验基准

二、AnimeRun数据集

AnimeRun的构建涉及多个方面,其中包含作者团队对于2D动画风格的定义和实际的渲染设置,以及对于视觉一致性标签的生成机制。除此之外,作者还在统计层面对AnimeRun与其他动画数据集进行了全方位多层次的数据分析和对比,下面我们将详细介绍其中的技术细节。

2.1 2D动画风格和渲染设置

对于色彩、线条艺术和纹理方面,作者观察到2D动画的一个典型的特点是,其中所有的主体都会被明确的勾勒出来,而轮廓线的闭合通常被着色为相同的颜色。根据这一观察,作者使用Blender的Workbench引擎将3D模型渲染成扁平化的颜色段,并通过启用轮廓和自由风格选项来合成轮廓线,如下图所示。

为了给单调的灰度线条增加艺术感,作者通过将所有材料设置为白色来渲染画面,并应用Image的伽玛校正来增强对比度。当电影涉及到头发、毛衣或喷雾等材料时,作者利用粒子效应来模拟大量微小而密集的实例,以获得更真实的外观。除了粒子效果之外,不可见的环境资源(例如雾块或发光板)通常被用来模拟自然的灯光,这些资源被渲染为实体对象,但是由于其在2D风格的引擎下会遮挡住主要人物,因此在最终的数据中这一部分会被移除。

作者还发现在渲染进程中启用景深虚化效果(DoF,depth of field)会导致物体和背景之间的边界模糊,如下图所示,因此在最终的渲染操作中取消了这一效果。

由于原有的动漫电影中都包含了丰富的专业的摄像机运动操作,包括平移、旋转和主体追踪。然而,在计算运动矢量时,Blender的默认设置会忽略相邻帧之间的焦距变化,从而导致光流估计错误。为了避免得到不准确的标签,作者将这种运动替换为沿固定焦距方向的位置移动

2.2 视觉一致性标签生成

对于视觉一致性标签生成,主要分为光流估计和图像区域分割两方面。对于前者,作者为了达到抗锯齿效果来获得清晰的运动边界,先是关闭了场景中所有的照明对象,例如灯和人物眼睛中的光点,以避免这些对象在合成光流中消失。在渲染完成后,还要对估计的光流执行质量检查,以检查帧与帧之间是否对齐。除此之外,作者还对光流估计过程进行了额外的遮挡建模。具体而言,给定一对相邻帧 I s I_{s} Is​ 和 I t I_{t} It​ ,其具有正向流 f s → t f_{s \rightarrow t} fs→t​ 和后向流 f t → s f_{t \rightarrow s} ft→s​ 。对于点 x x x ,如果 ∥ f s → t ( x ) + w f s → t ( f t → s ) ( x ) ∥ > 0.5 \left\|f_{s \rightarrow t}(x)+w_{f_{s \rightarrow t}}\left(f_{t \rightarrow s}\right)(x)\right\|>0.5 ∥fs→t​(x)+wfs→t​​(ft→s​)(x)∥>0.5 ,其中 w f s → t w_{f_{s \rightarrow t}} wfs→t​​ 表示后向扭曲,那么将 x x x 标记为被遮挡。遮挡mask会被进一步用于光流基准中的区域标记生成和评估

对于图像区域分割,作者首先应用trapped-ball填充算法[1],将所有帧沿轮廓线划分为若干段,然后从生成的光流中推导出区域性标签。具体来说,对于原始帧和目标帧中的 { S i s } \left\{S_{i}^{s}\right\} {Sis​} 和 { S t j } \left\{S_{t}^{j}\right\} {Stj​} 段,如果存在像素 x ∈ S i s and  x + f s → t ( x ) ∈ S j t x \in S_{i}^{s} \text { and } x+f_{s \rightarrow t}(x) \in S_{j}^{t} x∈Sis​ and x+fs→t​(x)∈Sjt​ ,就将该像素进行区域标记 m s → t [ i ] = j m_{s \rightarrow t}[i]=j ms→t​[i]=j 。此外作者还考虑到一个物体在原始帧中被分割成一块,但在目标帧中由于遮挡而变成多块的特殊情况。解决时首先记录所有符合上述条件的片段 { S t j } \left\{S_{t}^{j}\right\} {Stj​} ,并根据它们在原视频中区域的百分比对其优先级进行排序,其中优先级最高的片段被标记为 { S i s } \left\{S_{i}^{s}\right\} {Sis​} 的目标,以此来减少图像区域标签的误差。

2.3 AnimeRun与其他数据集的统计比较

为了更全面的评估AnimeRun的制作合理性和技术可行性,作者选取了另外两个动画数据集分别在图像层面、光流层面和区域性等多个层面与AnimeRun数据集进行了统计对比。另外两个数据集分别是ATD-12K[2]和CreativeFlow+[3],前者为真实动漫数据集,后者为生成数据集,对比结果如下图所示。

上图(a)展示了不同数据集的色彩分布情况,其中CreativeFlow+(绿色曲线)在高亮度中显示出较大的比例,这与原生动画产生了差异,相比之下,AnimeRun的颜色增强数据与ATD-12K的分布更接近。在图像导数方面,作者计算了水平一阶差,并在图(b)中展示了对数直方图。可以看到AnimeRun的对数分布相比其他数据集的求和绝对差值(SAD)更小。在评估像素级标签时,作者计算了每个像素与真实光流的位移幅度,并计算出对数直方图,如图(c)所示。

此外对于数据集区域性的统计也同样重要,因为颜色片段区域可以看作是2D动画的基本组成部分,一个真实的卡通帧可以由数百个颜色片段区域组成,与现有的数据集相比,由于AnimeRun完成了对完整场景的渲染,因而其由更丰富的片段组成。如下表所示,每一帧的平均段数达到237个,更加接近真实动画数据集ATD-12K中的数量。

三、实验基准

在实验基准设计方面,作者将渲染得到的片段分成训练集和测试集,其中训练集包含1760帧,测试集有1059帧。为了评估的公平性,作者将一部电影的连续运动分成不同的子集,这样做可以防止算法简单地复用前几帧的运动模式来得到更高的分数。实验基准包括像素级和区域级两部分,对于像素级测试,作者使用常用的光流方法PWC-Net、RAFT、GMA和GMFlow进行评估。对于区域性测试,作者使用分段匹配方法AnT作为基线。

像素级测试的对比结果如下表所示,使用平均端点误差(EPE,average end-point error)作为评价指标。

在区域级测试中,作者并没有去预测每个像素的运动矢量,而是将每个片段作为一个单元,目标是为原始帧中的每个片段找到目标帧中的对应片段。因此,区域性测试可以转换为一个离散匹配问题,作者通过计算预测对应关系的平均准确率(ACC)作为评价指标,实验结果如下表所示。

四、总结

本文可以看作是AI动画领域一个具有里程碑意义的工作,提出并制作了目前第一个全场景的二维动画视觉一致性数据集AnimeRun,该数据集从高质量的3D电影出发,由连续的二维动画帧和像素级以及区域级的对应标签组成,其不仅包含有丰富的图像场景内容,而且涵盖了复杂多变的角色运动,可以很好的模拟真实世界中的动画。基于该数据集,作者还建立了一个基准来完善这一新领域的研究路径。作者希望能够通过AnimeRun数据集来激发出更多AI模型进行动画创作的应用。

参考

[1] Song-Hai Zhang, Tao Chen, Yi-Fei Zhang, Shi-Min Hu, and Ralph R. Martin. Vectorizing cartoon animations. IEEE TVCG, 15(4):618–629, 2009.

[2] Li Siyao, Shiyu Zhao, Weijiang Yu, Wenxiu Sun, Dimitris Metaxas, Chen Change Loy, and Ziwei Liu. Deep animation video interpolation in the wild. In CVPR, 2021.

[3] Maria Shugrina, Ziheng Liang, Amlan Kar, Jiaman Li, Angad Singh, Karan Singh, and Sanja Fidler. Creative flow+ dataset. In CVPR, 2019.

Illustration by Manypixels Gallery from IconScout

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区以及将门创投基金。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com

果然AIGC还是对动漫制作下手了,不过是从数据集AnimeRun开始相关推荐

  1. HTML5培训教程学习之动效制作

    近年来,HTML5应用愈发广泛,并有取代Flash的趋势.很多人知道利用HTML5可以做出好的动作效果,但你知道它是怎么做出来的吗?今天小千就来给大家分享一下HTML5培训教程中动效制作的几种方法. ...

  2. netbeans 添加gif图片_GIF动图制作app下载|GIF动图制作安卓版 v3.9.2 官方免费版

    GIF动图制作APP是一款可以让您使用起来非常顺手的GIF动态图片制作软件,用户只需要根据app提供的功能,通过手机摄像头捕捉亲朋好友.家庭宠物等生动.有趣的瞬间,生成动画GIF图片珍藏起来!然后将视 ...

  3. 计算机动漫与游戏制作画画教学,科普下动漫制作必须会画画吗

    近日有关于科普下动漫制作必须会画画吗的问题受到了很多网友们的关注,大多数网友都想要知道科普下动漫制作必须会画画吗的具体情况,那么关于到科普下动漫制作必须会画画吗的相关信息,小编也是在网上进行了一系列的 ...

  4. 利用html制作通讯录_动漫制作软件哪些好用?动漫制作软件推荐

    动漫制作软件哪些好用?动漫制作软件推荐!零基础学动漫哪款软件最好用?动漫设计师往往决定着作品在视觉上的最终呈现效果,一套好的制作工具绝对堪称是动漫设计师的绝佳助手.但由于动漫创作过程纷繁庞杂,且受限于 ...

  5. 动漫制作技巧如何制作动漫视频

    动漫制作技巧是很多新人想了解的问题,今天小编就来解答与大家分享一下动漫制作流程,为了帮助有兴趣的同学理解,大多数人会选择动漫培训机构,那么今天小编就带大家来看看动漫制作要掌握哪些技巧? 一.动漫作品首 ...

  6. 免费GIF动图制作,简简单单一招搞定

    免费的GIF动图制作,教你一招搞定,下面就给大家介绍一款好用的gif制作工具,在线一键制作gif动图. 我们在网络聊天中,表情包已经是不可分割的一部分,也是沟通的种的一个桥梁.详细我们每个人的手机里都 ...

  7. sketch交互动效能导入html吗,UI设计利器Sketch +最新交互利器 Framer 配合使用和动效制作...

    UI设计利器Sketch +最新交互利器 Framer 配合使用和动效制作 许多人都在脸书上谈论framer的最新更新的倒计时,当时时钟敲过零点,Framer的新一个版本产生了,有了很多有趣的东西,例 ...

  8. arcengin交互式动图制作

    根据项目需求展示地图 arcengin交互式动图制作 arcengin交互式动图制作

  9. 盘点在H5小游戏里常用的动效制作套路

    近年来,越来越多的自带绚丽动效的H5小游戏如雨后春笋一般冒出来,而也正是这些炫酷的交互动效,才能够成功地吸引住用户的眼球,让用户为此驻足. 而「动效制作」也伴随着H5的大热而火遍前端圈及设计界,下面就 ...

最新文章

  1. pandas使用set_table_attributes函数、display_html函数等在jupyter notebook中并排显示两个dataframe的内容(side by side)
  2. 万众期待的《Cisco/H3C路由器配置与管理完全手册》开锣了
  3. PAT练习之字符串处理
  4. 深度学习100例 - 卷积神经网络(Inception V3)识别手语 | 第13天
  5. huffman编码压缩算法
  6. SQL2005备份集中的数据库备份与现有的数据库不同,错误号码:3154,解决方法...
  7. three.js加载3d模型_基于WebGL的3D技术在网页中的运用 ThingJS 前端开发
  8. 区间数值计数(洛谷P1980题题解,Java语言描述)
  9. Delphi 打印杨辉三角
  10. graphpad做折线图_graphpad prism怎么做折线图啊?求解答!
  11. 【java】swing窗口中的JOptionPane类及字符串转其他数据类型的应用
  12. nachos 5.0j(java版)学习笔记一:环境搭建
  13. jmp指令流程图怎么写_西门子PLC指令
  14. 国内的地图服务全面收费了
  15. 微信小程序setData修改数组某一项的值
  16. 数据预处理 常见的几种方法
  17. 对策《四川省本科毕业论文(设计)抽检实施细则》(四)准备答辩
  18. 2021.12.20(第二周) 实习周记lzhuan
  19. javascript CryptoJS 进行HmacSHA1加密
  20. 2019店铺淘客新方向,该如何去做?

热门文章

  1. 曲线平滑/散点拟合——卡尔曼滤波
  2. 【配置rust环境】windows+vscode
  3. 精雕细琢——全方位解析单例模式
  4. Unity-获得正在播放的动画
  5. 智能无烟烧烤锅王俊杰演讲
  6. S5P4418裸机开发(十二):IRQ (按键中断) 串口中断
  7. Linux(CentOS8)系统下的/var/www/html目录与httpd服务
  8. STM32开发板学习笔记【5】UART 串口 1 数据收发实验
  9. Odoo与浪潮合资研发PS Cloud之如何如何使用Paypal获得报酬
  10. php关键词匹配度排序,MySQL_mysql 关键词相关度排序方法详细示例分析,小项目有时需要用到关键词搜 - phpStudy...