论文简介：将卡通插画转换为“扁平风格”

论文提出了一个高质量的插画区域分割数据集DanbooRegion。该数据集是在Danbooru 2018数据集的基础上进行区域标注。（PS：希望业界之后能开放大规模国漫数据集。）由12名专业画家进行区域标注以及标注质量验证。提出了一种半自动化的辅助区域标注方法Feasibility-based Assignment Recommendation（FAR），以减少标注人员的工作量。

数据集辅助标注方法Feasibility-based Assignment Recommendation

3. 问题定义

从某种程度上来说，构建一个数据集的过程，就是在具体化地给出待求解问题的定义 {*}。

3.1 区域标注规则

大致的区域标注规则，如下图（a）（b）（c）所示：（具体规则详见论文）

（a）忽略光照与阴影产生的分界线。强调物体的边缘。

（b）忽略细节纹理。强调物体内部的结构性线条（主要线条）。（例如：将衣服根据其内部的结构性线条划分为多个区域，以体现出一定的笔触感。）

其他示例：

（c）从专业画家的视角，重新组织（reorganize）色彩含糊区域。把颜色相似但内部分界线含糊的的上色区域，分解为若干个边界清晰的区域（如：头发），以体现出一定的笔触感；或者合并为单个区域（如下图青蛙的风衣）。

其他示例：

区域标注颜色说明：对插画中的区域进行标注时，不同区域使用不同的颜色。每个区域使用的颜色为随机选择的颜色。选择的颜色仅用于区分不同的区域，与所标注区域的“类别”（是头发、还是衣服）无关。不同插画的区域标注颜色没有任何关联。同一个物体（如头发）内部可能会被分割为多个区域。对于非连通的区域，即使同属于一个类别（例如一件风衣的左、右两边），也会被标注为不同的颜色。

3.2 与语义分割的区别

“图像语义分割”是计算机视觉的基本任务之一。需要注意“图像语义分割”与论文提出的“插画区域分割”定义存在很大的区别 {*}。

（1）“图像语义分割”（Semantic Segmentation）的目标是对图像中的每个像素进行分类。每个像素属于且仅属于一种“类别”（class）。模型能识别的类别种数在训练后是固定的，由训练数据集决定。例如：若训练集只标注了“人/车/道路/其他”这四种类别，那么在测试阶段，输入图像的每个像素只会被分类为这四种类别中的一种。

（2）而论文提出的“插画区域分割”问题不存在“类别”的概念。“区域分割”是将输入的插画分割为若干个区域（Region）。每个像素属于且仅属于一个区域。区域与物体类别无关，同一个物体（如头发）内部可能会被分割为多个区域。在测试阶段，一张插画中可能包含的区域数量没有上限。例如：对于测试阶段的插画，一个人可能被分割为10个或30个互不相交的区域（视该插画的具体绘制情况而定）。（其他区别详见上一节描述的“区域标注颜色说明”。）

4. Normal-from-region转换算法

由定义引发的问题是：无法直接用“语义分割网络”来解决插画区域分割问题。另外，由于每个区域标注的颜色都是随机选择的，不同插画的区域标注颜色没有任何关联，所以也无法直接使用“图像翻译网络”（如：Pix2Pix）来解决该问题。那么，如何设计算法，才能让CNN能够处理这种不含类别的区域分割问题？（难点）

为解决这一问题，论文设计了一种Normal-from-region转换算法，将“插画区域分割问题”转化为 “图像翻译问题”（Image-to-Image Translation），使得可以使用Pix2Pix等网络来处理该问题。

在训练阶段，需将人工标注的“区域标注图”转化为Normal map和marker的叠加（基于“随机场”），供“图像翻译网络”进行学习。

在测试阶段，网络的输入为插画，输出为Normal map和marker的叠加。借助分水岭算法（watershed），将网络输出的Normal map转换为“区域标注图”（填充的颜色为随机值）。

5. 应用之一：将二次元插画转换为扁平风格

5.1 扁平风格上色问题

DanbooRegion数据集包含诸多应用方向，如：动画跟踪，光照分解等等。下面主要介绍其在“插画扁平风格转换”方面的应用：

问题：给定一张动漫线稿，如何自动生成“扁平风格”的上色效果？

一种方案是先把插画训练数据集转换为扁平风格，然后直接用转换后的数据集训练自动上色网络 {*}。但该方法实际上是无效的，原因之一在于，上色网络属于“图像翻译网络”，而图像翻译网络无法保证输出结果的每个区域只含有一种颜色，从而无法实现扁平风格的上色效果。

另一种方案是先使用自动上色网络上色，再将其输出结果转换扁平风格。Style2Paints V4.5能够在用户输入较少颜色提示的情况下（有时甚至不需要输入颜色提示），只需选择一种内置调色板，就能达到较好的自动上色效果。（提示点的颜色，可以从内置调色板生成上色结果的其他区域选取，所以对于非绘画专业的普通用户，即使不懂色彩知识，也可以轻松进行上色。）因此，如果能将Style2Paints的上色结果自动转换为扁平风格，就能帮助非绘画专业的普通用户实现扁平风格的（半）自动上色。虽然很多基于数学算法的上色软件（如LazyBrush算法）也可用于手工绘制平涂效果，但这种（基于深度学习的）高度自动化的上色过程，是LazyBrush算法所无法实现的 {*}。

由于训练数据集（Danbooru）中几乎都是非扁平风格的插画，深度上色网络无法直接生成扁平风格的上色效果。因此，需要解决的问题转化为：如何将“非扁平风格的插画”转换为“扁平风格”？

论文使用提出的DanbooRegion数据集训练Pix2PixHD图像翻译网络，可得到一个插画区域分割网络。取分割结果中每个区域的中间颜色作为该区域的颜色，形成初步的扁平化上色效果。训练阶段使用的数据增强方法为Bilateral Filter [49]（作者称之为low & high-frequency augmentation），以避免网络对插画中的高频边缘信息过拟合，同时让网络学习针对模糊的区域的分割方法。然后使用一系列算法（Selected Search [50]，[4]）优化最终的结果。

另外，区域分割网络是交互式的，允许用户在初步分割结果的基础上添加提示线条，以指导网络合并一些被错误地分开的区域。

5.2 上色效果

训练好的网络可用于将PaintsChainer、Style2Paints生成的上色结果转化为“扁平风格插画”。扁平风格上色效果如下图所示：

将上色网络的输出转换为扁平风格（左：PaintsChainer，右：Style2Paints）
（其中：圆点表示用户添加的颜色提示点，虚线表示用户添加的用于合并扁平上色区域的提示线）

相关论文：

论文标题：Erasing Appearance Preservation in Optimization-based Smoothing（基于数学算法）

发表会议：European Conference on Computer Vision (ECCV) 2020 (Spotlight)

→论文简介-链接

虽然这篇论文的任务目标是对各种图像（包括照片和插画）进行光照分解、颜色替换、纹理替换等，但笔者认为该算法能在一定程度上将插画转换为近似的“扁平风格” {*}。需要指出的是，该文算法生成的扁平风格效果与DanbooRegion存在一定差异，无法实现一部分区域分割规则，如分割规则（b）（c）。

参考与引用资料：

{*}为本blog为了便于理解论文而补充介绍的内容。

[4] Bessmeltsev, M., Solomon, J.: Vectorization of line drawings via polyvector fields. ACM Transactions on Graphics 38(1), 1–12 (jan 2019).https://doi.org/10.1145/3202661

[49] Tomasi, C., Manduchi, R.: Bilateral filtering for gray and color images. In: Sixth International Conference on Computer Vision (IEEE Cat. No.98CH36271). Narosa Publishing House (1998). https://doi.org/10.1109/iccv.1998.710815

[50] Uijlings, J.R.R., van de Sande, K.E.A., Gevers, T., Smeulders, A.W.M.: Selective search for object recognition. IJCV (2013)

[ref-1] Shotton, J., Winn, J., Rother, C., and Criminisi, A. (2009). Textonboost for image understanding: Multi-class object recognition and segmentation by jointly modeling appearance, shape and context. International Journal of Computer Vision, 81(1):2–23.