论文简介:将卡通插画转换为“扁平风格”

未经同意,禁止转载。(更新时间:2020-11-05) |  个人笔记,仅供参考。

本文属于:动漫线稿自动上色-系列论文笔记


目录

1. 基本信息

2. 概述

3. 问题定义

3.1 区域标注规则

3.2 与语义分割的区别

4. Normal-from-region转换算法

5. 应用之一:将二次元插画转换为扁平风格

5.1 扁平风格上色问题

5.2 上色效果


1. 基本信息

论文标题:DanbooRegion: An Illustration Region Dataset

                  DanbooRegion:卡通(二次元)插画区域分割数据集(基于深度学习方法)

发表会议:European Conference on Computer Vision (ECCV) 2020 

研究领域:计算机视觉,计算机图形学,半自动化数据集构建,深度学习,随机场(Random Field),图像翻译

作者:Lvmin Zhang, Yi JI, and Chunping Liu

论文链接:(1)ECVA  |  Supplymentary material

2. 概述

面对非常复杂的非线性问题,如果数学算法无法很好地对问题进行建模,就需要考虑使用数据驱动(data-driven)的方法:构建一个数据集,然后使用深度神经网络根据数据自动构建模型,自动学习从问题到答案(end-to-end)的函数变换 {*}。

对于二次元插画区域分割问题,由于之前的图像分割算法无法实现较好的分割效果,作者决定自行构建一个插画区域分割数据集,以便使用深度神经网络来解决该问题。

论文提出了一个高质量的插画区域分割数据集DanbooRegion。该数据集是在Danbooru 2018数据集的基础上进行区域标注。(PS:希望业界之后能开放大规模国漫数据集。)由12名专业画家进行区域标注以及标注质量验证。提出了一种半自动化的辅助区域标注方法Feasibility-based Assignment Recommendation(FAR),以减少标注人员的工作量。

数据集辅助标注方法Feasibility-based Assignment Recommendation

3. 问题定义

从某种程度上来说,构建一个数据集的过程,就是在具体化地给出待求解问题的定义 {*}。

3.1 区域标注规则

大致的区域标注规则,如下图(a)(b)(c所示:(具体规则详见论文)

区域标注规则示例(a)(b)(c)

 (a忽略光照与阴影产生的分界线。强调物体的边缘。

(b忽略细节纹理。强调物体内部的结构性线条(主要线条)。(例如:将衣服根据其内部的结构性线条划分为多个区域,以体现出一定的笔触感。)

其他示例:

 (c从专业画家的视角,重新组织(reorganize)色彩含糊区域。把颜色相似但内部分界线含糊的的上色区域,分解为若干个边界清晰的区域(如:头发),以体现出一定的笔触感;或者合并为单个区域(如下图青蛙的风衣)。

其他示例:

 区域标注颜色说明:对插画中的区域进行标注时,不同区域使用不同的颜色。每个区域使用的颜色为随机选择的颜色。选择的颜色仅用于区分不同的区域,与所标注区域的“类别”(是头发、还是衣服)无关。不同插画的区域标注颜色没有任何关联。同一个物体(如头发)内部可能会被分割为多个区域。对于非连通的区域,即使同属于一个类别(例如一件风衣的左、右两边),也会被标注为不同的颜色。

3.2 与语义分割的区别

“图像语义分割”是计算机视觉的基本任务之一。需要注意“图像语义分割”与论文提出的“插画区域分割”定义存在很大的区别 {*}。

(1)“图像语义分割”(Semantic Segmentation)的目标是对图像中的每个像素进行分类。每个像素属于且仅属于一种“类别”(class)。模型能识别的类别种数在训练后是固定的,由训练数据集决定。例如:若训练集只标注了“人/车/道路/其他”这四种类别,那么在测试阶段,输入图像的每个像素只会被分类为这四种类别中的一种。

图像语义分割示例 [ref-1]

(2)而论文提出的“插画区域分割”问题不存在“类别”的概念。“区域分割”是将输入的插画分割为若干个区域(Region)。每个像素属于且仅属于一个区域。区域与物体类别无关,同一个物体(如头发)内部可能会被分割为多个区域。在测试阶段,一张插画中可能包含的区域数量没有上限。例如:对于测试阶段的插画,一个人可能被分割为10个或30个互不相交的区域(视该插画的具体绘制情况而定)。(其他区别详见上一节描述的“区域标注颜色说明”。)

4. Normal-from-region转换算法

由定义引发的问题是:无法直接用“语义分割网络”来解决插画区域分割问题。另外,由于每个区域标注的颜色都是随机选择的,不同插画的区域标注颜色没有任何关联,所以也无法直接使用“图像翻译网络”(如:Pix2Pix)来解决该问题。那么,如何设计算法,才能让CNN能够处理这种不含类别的区域分割问题?(难点

为解决这一问题,论文设计了一种Normal-from-region转换算法,将“插画区域分割问题”转化为 “图像翻译问题”(Image-to-Image Translation),使得可以使用Pix2Pix等网络来处理该问题。

在训练阶段,需将人工标注的“区域标注图”转化为Normal map和marker的叠加(基于“随机场”),供“图像翻译网络”进行学习。

训练阶段:Normal-from-region转换算法

 

在测试阶段,网络的输入为插画,输出为Normal map和marker的叠加。借助分水岭算法(watershed),将网络输出的Normal map转换为“区域标注图”(填充的颜色为随机值)。

测试阶段:Region-from-normal转换

5. 应用之一:将二次元插画转换为扁平风格

5.1 扁平风格上色问题

DanbooRegion数据集包含诸多应用方向,如:动画跟踪,光照分解等等。下面主要介绍其在“插画扁平风格转换”方面的应用:

问题:给定一张动漫线稿,如何自动生成“扁平风格”的上色效果?

一种方案是先把插画训练数据集转换为扁平风格,然后直接用转换后的数据集训练自动上色网络 {*}。但该方法实际上是无效的,原因之一在于,上色网络属于“图像翻译网络”,而图像翻译网络无法保证输出结果的每个区域只含有一种颜色,从而无法实现扁平风格的上色效果。

另一种方案是先使用自动上色网络上色,再将其输出结果转换扁平风格。Style2Paints V4.5能够在用户输入较少颜色提示的情况下(有时甚至不需要输入颜色提示),只需选择一种内置调色板,就能达到较好的自动上色效果。(提示点的颜色,可以从内置调色板生成上色结果的其他区域选取,所以对于非绘画专业的普通用户,即使不懂色彩知识,也可以轻松进行上色。)因此,如果能将Style2Paints的上色结果自动转换为扁平风格,就能帮助非绘画专业的普通用户实现扁平风格的(半)自动上色。虽然很多基于数学算法的上色软件(如LazyBrush算法)也可用于手工绘制平涂效果,但这种(基于深度学习的)高度自动化的上色过程,是LazyBrush算法所无法实现的 {*}。

由于训练数据集(Danbooru)中几乎都是非扁平风格的插画,深度上色网络无法直接生成扁平风格的上色效果。因此,需要解决的问题转化为:如何将“非扁平风格的插画”转换为“扁平风格”?

 

论文使用提出的DanbooRegion数据集训练Pix2PixHD图像翻译网络,可得到一个插画区域分割网络。取分割结果中每个区域的中间颜色作为该区域的颜色,形成初步的扁平化上色效果。训练阶段使用的数据增强方法为Bilateral Filter [49](作者称之为low & high-frequency augmentation),以避免网络对插画中的高频边缘信息过拟合,同时让网络学习针对模糊的区域的分割方法。然后使用一系列算法(Selected Search [50],[4])优化最终的结果。

 low & high-frequency augmentation数据增强方法

另外,区域分割网络是交互式的,允许用户在初步分割结果的基础上添加提示线条,以指导网络合并一些被错误地分开的区域。

5.2 上色效果

训练好的网络可用于将PaintsChainer、Style2Paints生成的上色结果转化为“扁平风格插画”。扁平风格上色效果如下图所示:

将上色网络的输出转换为扁平风格(左:PaintsChainer,右:Style2Paints)
(其中:圆点表示用户添加的颜色提示点,虚线表示用户添加的用于合并扁平上色区域的提示线)

 

扁平风格自动上色效果(第一代,第二代扁平上色模型)

相关论文:

论文标题:Erasing Appearance Preservation in Optimization-based Smoothing(基于数学算法

发表会议:European Conference on Computer Vision (ECCV) 2020 (Spotlight)

→论文简介-链接

虽然这篇论文的任务目标是对各种图像(包括照片和插画)进行光照分解、颜色替换、纹理替换等,但笔者认为该算法能在一定程度上将插画转换为近似的“扁平风格” {*}。需要指出的是,该文算法生成的扁平风格效果与DanbooRegion存在一定差异,无法实现一部分区域分割规则,如分割规则(b)(c)。


参考与引用资料:

{*}为本blog为了便于理解论文而补充介绍的内容。

[4] Bessmeltsev, M., Solomon, J.: Vectorization of line drawings via polyvector fields. ACM Transactions on Graphics 38(1), 1–12 (jan 2019).https://doi.org/10.1145/3202661

[49] Tomasi, C., Manduchi, R.: Bilateral filtering for gray and color images. In: Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271). Narosa Publishing House (1998). https://doi.org/10.1109/iccv.1998.710815

[50] Uijlings, J.R.R., van de Sande, K.E.A., Gevers, T., Smeulders, A.W.M.: Selective search for object recognition. IJCV (2013)

[ref-1] Shotton, J., Winn, J., Rother, C., and Criminisi, A. (2009). Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling appearance, shape and context. International Journal of Computer Vision, 81(1):2–23.