AI设计师“鹿班”核心技术公开：如何1秒设计8000张海报？

时间 2021-05-30 标签算法框架工具布局学习优化 spa 设计视频递归

本文介绍了视觉生成的现状，智能设计的框架和流程、应用案例及将来前景。经过本文的学习，能够对鹿班这个产品，以及视觉生成相关技术有基础性的认识、了解行业的现状以及将来的发展趋势。算法

演讲嘉宾简介：星瞳，阿里巴巴机器智能技术实验室资深算法专家，专一于视觉生成、智能医疗、图像搜索、信息抽取等方面技术研发和落地；阿里巴巴智能设计（鹿班）的创始成员和算法技术负责人，医疗影像智能诊断方向负责人，图像搜索拍立淘的早期创始成员。框架

本次分享主要分为如下几个部分：工具

定义、目标和愿景
设计行业现状
使用场景
技术框架和生产流程
关键算法
业务进展
案例展现
鹿班（新零售UED、淘宝技术部等共创的典型案例）
前景展望

1、定义、目标和愿景

视觉生成的定义：可控视觉内容设计和生成，聚焦知足用户、场景需求的数字视觉内容制造，包括针对图像、视频及图形的加强、编辑、渲染、生成、评估等视觉内容设计与制做。用技术赋能和改革设计、广告及数娱行业。布局

目标：可控视觉内容设计和生成，让AI作设计，使数字内容制造变得高质、高效、普惠、低成本；学习

愿景：所想，即所见。优化

视觉生成主要分红三个方向。第一，针对非结构化的图像。第二，针对结构化的图形。第三，针对序列化的视频。spa

2、设计行业现状

视觉生成较年轻，起初，基本都是经过人工方式完成。小到海报或毕业设计封面的设计这样的小需求，大到阿里巴巴中海量商家的投放渠道及效果这样的大型需求都与其相关。从业人员数量庞大，市场与广告、商家关系紧密，市场容量很是大。设计

从技术上说，近几年，你们常提到供给侧改革，之前的供给侧基本都是经过人或工具来造成图像、视频等，但这样有很大的局限性，包括：视频

效率低成本高
数据利用率低，好比去年双十一和今年双十一因为主题不一样，须要全盘重作。
没法在线化，从提出需求到获得结果没法作到实时。
难以上下文相关，设计师不会结合用户的个性化需求，造成与上下文相关的结果。

而在消费端，对个性化、精准度、实时性有很高的需求。所以，在供给和需求之间还存在差距。在AI行业中，IN的多：识别、理解、搜索。OUT的少：生成、融合还限于学术圈，系统性落地工程、可商用的产品没有。递归

所以，“The best way to predict is to create”。

3、使用场景

视觉生成引擎的使用场景大体可抽象成下图。以显式输入而言，用户能够输入标签须要的风格、色彩、构图等，或者输入一个例子，或者进行一些交互的输入。除显式输入以外还能够有隐式输入，好比人群信息、场景信息、上下文信息等。总的来讲，输入能够是变幻无穷的，但经过规范化以后就会减小变化，使得生成过程可控，输出质量可控。

对视觉生成引擎来讲，它要求输入是规范化的。但在输入前，能够加入各类交互方式，如天然语言处理，语音识别等，将其转化成规范化输入。最后输出结构化信息或可视成图。

4、技术框架和生产流程

其技术框架以下图左侧。首先对视觉内容进行结构化理解，如分类、量化、特征化。其次经过一系列学习、决策变成知足用户需求的结构化信息即数据，最后将数据转化成可视的图像或视频。这一框架依赖于大量的现有数据。其核心是一个设计内核。同时，引入效用循环，利用使用后的反馈来不断迭代和改进系统。

其生产流程分红六个步骤，以下图右侧所示。首先用户提出需求，将需求特征化转变成系统能够理解的结构化信息。其次将信息进行规划获得草图。有了粗略的草图后再将其转变成相对更精确的图，而后调整细节，最后经过数据可视化造成最终的图。固然其中还有不少的trick，以及各部分的优化。

5、关键算法

下面介绍一些关键算法。咱们但愿基于下图最左的耐克鞋生成最右的图。先经过规划器获得草图，再经过强化学习得到相对细致的结果，再经过对抗学习及渲染算法获得图片，再经过评估器进行评估，最后造成业务闭环，其中还会有一些基础的能力，包含更强的联合特征（非普通 CNN特征）及多维度检索算法等。

基本上，处理的第一步是将图片中的信息结构化，这也是与现有的识别理解技术结合最紧密的地方。其中的难点和重点包括，对图像中多目标的识别、遮挡和互包含状况如何获得分割的信息等，下图只是个简单的示例。

有告终构化信息以后，须要对信息进行量化。能够量化成特征或量化图。量化过程当中会包含不少信息，好比主题风格、布局配色、元素种类、量化空间等。有了这些信息后能够在主题、种类、风格、视觉特征大小位置上，量化成各类码，用相对有限的特征来表达无限的图。

下一步是经过用户的输入，获得一个相对粗略的结果即草图。目前主要使用的是深度序列学习。从图像角度，首先选定一个点的像素颜色再选择位置，再迭代进行操做，最后造成一张图。规划器模拟的就是这个过程。本质上预测过程是一棵树，固然也能够拆成一条条路径。为了简化，能够分红几步进行，好比空间序列，视觉序列。最后造成量化特征模型，主要应用的是LSTM模型。它把设计的过程转化成基于递归、循环的过程。

获得草图后，利用行动器将草图细化。若是将图中的每一个元素看做一个Agent，那么它将有若干个可选的行动空间。

假设一张图中有20个元素，每一个元素在视觉上有多种可选的行动空间，由其组合成的可选行动空间很是庞大。咱们有不少trick能够解决这一问题，好比在空间上，只容许在有限范围内进行变更，且行动方向有序，即状态有序，行动有限。

下一步是如何衡量结果的好坏。图像的评估相对比较主观，主要能够从美学和效果两方面来评估。美学角度能够包括是否对齐、色系搭配是否合理、有无遮挡这些较低级别的判断标准，以及较高级的，好比风格是否一致，是否切合主题。从效果上，产品投放后是否会在点击率等方面实现提高。最后将多个指标造成对应权重并造成多个DeepLR联合模型。

但在衡量结果以前，须要造成像素级别可见的图。这里有如下几种构造器分类，包括临摹、迁移、创造、搭配与生成。

前面介绍了，如何经过用户的需求造成可见的图。后续还须要进行投放和反馈并进行优化，造成效用外循环。这样才能使得系统效用不断获得提高，造成一个在线闭环，这也是智能设计相对设计师的一大优点。

6、业务进展

下面是一些实际的例子。

7、案例展现

从多样性看，生成的图片能够是多主体、多主体、多配色和类型自适应的。

同时，也能够生成多种尺寸的图片。

8、前景展望

上面所说的基本都是平面设计层面的。但在视频和图形上是另外一片蓝海。若是说人工作一张图片的成本比较高，而制做视频的成本则远高于图片。

下图是目前的行业市场空间展现。

为了强调视频中的一部分，能够生成总体静止局部运动的可循环视频。

在游戏领域中，如今的游戏场景须要大量的美工、设计师等。若是但愿生成的结果能知足多样性，那么纯靠人工进行须要大量的成本，而且因为游戏的生命周期一般较短，所以批量高效的场景制做是一个颇有前景的应用。

9、结语

经过视觉生成引擎，咱们但愿能基于用户的所想，使得一切皆可生成。长远的目标就是：所想，即所见。

本文做者：星瞳

原文连接

本文为云栖社区原创内容，未经容许不得转载。