快手智能视频图像编码处理服务架构

时间 2021-05-31 标签算法网络架构框架 ide 函数微服务工具性能学习

文 / 闻兴算法

文章整理 / LiveVideoStack网络

在视频服务飞速发展的今天，视频平台如何在兼顾机器带宽成本的同时，让用户得到更加极致的观看体验，是每个视频技术团队都会面临的问题。架构

复杂的技术从计划、研发、调试直到最终全量上线须要大量的线上测试及用户反馈，这一过程耗时长久，甚至能够说永无止境。不少时候，一些技术开发出来后，由于复杂度太高或者与实际场景差异过大，最终没法上线为用户提供更好的体验。_因此在技术的开发及落地中，惟一的衡量标准——是可否在真实场景中以更低的成本为用户带来更好的体验_。框架

本文中所援引皆为已经在线上稳定运行的算法及服务，全部展现的数据均是线上实际业务中所产生的真实结果。但愿本文分享的信息可以给更多开发者带来价值，也但愿咱们完成的这些工做可以对你们将来的技术研发工做有所启发。ide

本文将分为四个部分展开：首先，咱们简单回顾短视频行业的发展历程并简要介绍快手；其次，重点介绍快手用于分析/处理/推理/转码的多媒体算法引擎——Atlas；再次，深刻介绍Atlas的基础能力之一视频图像编解码能力，这也是快手首次对外公开介绍短视频转码系统和技术；最后，咱们经过两个实际的应用项目，即基于视频内容的处理及分析(CAPE)以及视频的AI智能加强，来进一步介绍Atlas的落地和使用场景。函数

1 短视频行业及快手公司介绍微服务

在过去几年中，随着移动互联网覆盖逐步饱和，我国互联网的用户总体规模增幅一直呈降低趋势，但毋庸置疑短视频行业已逐渐发展成为当下最火爆的市场之一。从2019年的数据能够看到，中国短视频用户月活达8.2亿，今年受疫情等因素影响，月活已接近9亿。另外，短视频应用使用时长的增加在行业内也占据首位。工具

快手做为一个国民短视频社区，拥有海量的用户和短视频内容，日活用户规模超过3亿，日播放量达到百亿级。每日产出UGC内容1500万，原创短视频库达到260亿。海量短视频下多媒体内容处理的成本与体验之间的平衡，不断为咱们带来了新的挑战和新的惊喜。性能

2 多媒体算法服务架构平台：Atlas学习

如下将详细介绍快手的多媒体算法服务架构平台Atlas。

2.1 为何要作Atlas？

在进行多媒体算法开发的时候，业务方的需求通常主要集中于三个方面：场景、体验和成本。

从场景需求角度来讲，在实际应用中存在大量且需求迥异的业务场景，好比短视频场景对清晰度和流畅度都有很高的要求，长视频场景则更在意内容的清晰度和沉浸感，而直播场景相对而言对流畅度的要求会更高一点，而且须要保证明时性，对延迟比较敏感。多样化的场景会提出多种大相径庭的优化目标。

就体验需求而言，难点在于部分业务方对体验的要求及预期没法量化，主观、感性表述每每较多，不能直接指导算法优化方向，所以专业的算法方案，须要同时兼顾客户的理解力和使用门槛。另外一部分业务方的需求则更加具体及专业，有的业务方既须要传统算法，又但愿可以利用神经网络推理能力；有的业务方既要作到尽可能可控，又但愿能有部分傻瓜模式以下降使用难度。

成本需求主要包含两方面，一是机器成本，业务方永远但愿用最少的成本达到最优的体验；二是部署及维护成本，但愿算法和工程的迭代及优化效率足够高，既要知足层出不穷的新需求又要尽可能不新增更多的人力投入。

如何能更高效地知足这些需求？咱们开始思考这个问题的解法，这就是快手创建多媒体算法服务端引擎Atlas的初衷。

（Atlas --- 阿特拉斯本是希腊神话旧神系中表明耐力、力量和天文的泰坦神，他被宙斯降罪放逐在大地之西，用双肩擎起整个天空(Uranus或指宇宙)；而在欧洲古典主义的建筑风格中一般会用这类男性形象放在立柱的位置，这种结构也被称为Atlas。所以，咱们为这个核心引擎取名Atlas，也寓意着快手但愿在用户和开发者之间、需求和算法之间、算法和硬件结构之间可以搭起一座座桥梁，起到链接支撑的结构性做用。）

2.2 Atlas 能力简介

Atlas做为多媒体处理算法引擎，已经在快手的各类线上服务全面落地，包括快手主站及海外的视频/图像分析、视频/图像处理、视频转码等。与此同时，它也支撑了视频剪辑和视频制做工具“快影”和企业级视频智能生产云平台“OnVideo”，以及其它新业务的大量视频分析、处理和制做需求。

Atlas现有的能力主要包括以下四个方向：视频图像压缩，画质加强，音频处理，以及智能生产。

在快手天天会新增千万级的视频内容，这些视频的服务端转码任务都是经过Atlas来完成的。在视频图像压缩方面，咱们一直在追求这一基本能力作到精益求精，从而达到为客户节约成本，为用户提供最优体验的目的。经过自研的K系列编码器 (K264/K265/KVC)，Atlas展示了对于视频及图像的极致压缩能力。咱们会在本文中后面的部分详细介绍快手的短视频编解码架构，做为其中核心的K系列编码器，以及上线后的具体收益。除了基本的编解码处理能力，Atlas也提供基于内容的智能处理与编码 (CAPE，Content Aware Processing & Encoding)，在后面的部分咱们也会给出一个视频CAPE的应用实例，来详细说明如何搭建对应服务并取得线上业务的收益。

音频处理方面，Atlas包含音频美学，响度均衡，智能降噪，智能音效等功能。快手平台经过应用响度均衡处理技术和标准，可以有效规范平台的音频响度和动态范围平衡，避免切换不一样视频时，声音响度忽大忽小。而智能降噪技术已经应用在快手直播，视频会议及快手K歌等多个业务场景。Atlas除了提供上述对音频的处理能力，也支持智能化的音频压缩算法，例如内容自适应音频编码 (CAE)等。

除此以外，Atlas也具有不少很是成熟的图像算法处理能力，例如在画质加强方面的失真去除 (De-Art) 、超分辨率 (SR)、视频插帧(FRUC)、色彩一键加强以及暗光加强等。这些算法及功能已经长期稳定地服务于快手平台及海外各App，服务范围涵盖了移动端的编辑和上传流程，以及服务端转码相关的处理和加强等重要任务。

智能生产方面，Atlas中具备不少独特的功能，好比精彩片断挑选、智能封面挑选和裁剪等。快手智能影集就是基于Atlas这些独家能力进行开发并持续迭代的。智能影集功能是经过对用户做品集的内容进行理解及分析，精选出用户公开做品中的优质片断，并以必定的故事线(时间或地点)逻辑裁剪梳理出视频集锦片断，最终结合特效片断合成出影集做品。

经过上述Atlas独具特点的能力，不一样的用户能够根据自身业务及产品的需求，快速提高用户体验或搭建有趣的功能或玩法。

2.3 Atlas 架构简介

做为视频行业最火爆的公司之一，快手的业务需求种类繁复，横跨各类应用场景，但万变不离其宗，绝大多数的的需求均可以拆解为内容分析识别、处理加强、编码压缩以及硬件加速四个阶段。经过Atlas完善的接口及架构设计，算法开发方可以高效的跨越四个阶段，从而对业务方的需求进行快速响应和迭代；而用户也能够基于Atlas的架构低成本的搭建本身的服务，或将Atlas中的算法能力应用于产品中。接下来咱们将对Atlas的总体架构及设计逻辑进行详细介绍。

2.3.1 逻辑架构

Atlas的总体架构从逻辑上划分，可分为四层：

服务接口层：Atlas的接口层是直接暴露给用户的，用户经过接口层进行任务的详细配置，例如须要使用的分析及处理算法组合，编码器及参数设置，硬件（GPU）加速方式等。此外，Atlas也提供命令行驱动、API集成等多种调用方式，用户能够根据自身需求灵活地搭建服务。

分析及逻辑决策层：Capella是Atlas的分析及逻辑决策层。这一层主要有两个功能，一是进行内容的特征分析及质量评估；二是根据分析结果，配置后续操做的“菜谱”(Recipe)。这里的“菜谱”包括后续算法服务层会使用哪些算法，以及这些算法的顺序和配置：好比用H.264/AVC仍是用H.265/HEVC编码，采用怎样的编码配置；如何作前处理，包括作哪些处理及处理的顺序和参数，是先作去噪仍是先作色彩加强，强度如何？

算法服务层：这是最核心的一层，主要分为三大模块，其一是音频、视频及图像编解码器(Codec)模块；其二是图像算法引擎VisionEngine，是包含各类自研图像算法的工具集；其三是EVA(Elastic Video AI Inference)，它是一个AI网络推理库，主要包含一些针对视频和图像的自研深度学习网络。

硬件层：做为最底层，包含了CPU链路、GPU链路及混合链路。

2.3.2 视频处理编码链路

咱们经过线上常见的一个转码任务流程为例，来进一步说明Atlas的架构。在通常转码任务中，咱们会首先对视频进行前处理，而后再作编码。用户在搭建相似服务时，能够直接经过Atlas内的Codec管理器和Filter管理器选择但愿使用什么类型的编码器和前处理算法。在配置前处理算法时，若是选择传统算法，就会调用图像引擎VisionEngine中的相应算法能力；若是须要深度学习算法，就会经过EVA引擎得到网络推理能力，为减小读取网络形成的延迟，EVA将做为一个Daemon启动，经过进程间通讯传输推理数据。

在GPU硬件加速方面，Atlas全链路支持NVIDIA平台的编解码、处理、推理能力，包括NVENC/NVDEC、CUDA、TensorRT等原生API和框架，同时也会提供CUDA版本的PyTorch和Tensorflow给用户作验证和测试。在Intel平台上，也能够经过MediaSDK、OpenVINO等框架得到Intel GPU的计算能力。

Atlas支持全GPU链路，全CPU链路，及混合链路三种任务执行方式。全GPU链路，即从解码到转换、推理，再到前处理以及编码的全流程都部署在GPU上，会提供最高的吞吐率。这样的链路比较适合一些对压缩比追求没有那么高的工做，好比预览或存储。而混合链路则能够提供极致的压缩及处理效果。一方面，为追求极致的压缩率，Atlas会使用CPU运行软件编码器；另外一方面，当须要网络推理的算法时，用户能够在GPU上进行推理的加速。这样作的优势在于既能够利用深度学习网络取得更好的视频处理结果，也能够获得极致的压缩比。而混合链路的缺点是其总体的I/O开销会比较高，须要把数据在GPU和CPU之间互传。_简言之，不管是GPU链路、CPU链路仍是混合链路，用户能够根据具体工做进行选取，选择须要使用到的具体链路。_

2.3.3 交付、集成及部署

在最终交付时咱们会将底层的算法库、第三方库，打包Atlas总体镜像。当业务方得到Atlas镜像后，就能够在上面直接构建自身服务的镜像。此方法的优势在于集中度高、性能可控性高，升级的耦合度比较低。同时咱们的技术团队正在致力于把底层再拆解成单独的小镜像来作微服务，提升部署的灵活性。

3 Atlas核心能力——视频编解码

以上是Atlas的总体架构介绍，接下来将着重介绍Atlas的核心能力之一，视频图像压缩中的视频编解码能力。在进入正题前，但愿先和读者分享一些咱们从客户价值出发而产生的思考，好比在平常编解码开发过程当中遇到的各类难点和问题，咱们是如何解决这些困难的，如何更高效的将研究中的算法落地，如何更好的理解和服务用户，以及应当如何体现编解码开发者的价值。

3.1 编解码开发与用户体验之间的鸿沟

在编解码开发到最终全量上线改善用户体验的过程当中，通常会经历以下三个阶段：离线开发阶段，实际测试阶段，真实上线阶段，而三个阶段之中又有着多个复杂的鸿沟。

离线开发阶段通常表明算法或工具的开发初期，或标准创建过程当中的早期阶段，在这个阶段主要关注的是“信号保真度” (PSNR/MSE) 和“码率” (Bitrate) 以前的权衡，通常会经过少许测试序列，计算BD-Bitrate及BD-PSNR等客观指标。但这些指标是很难反映工具或算法在真实场景的有效性的。

而在实际测试阶段，主要关注的是视频“主观质量”与“真实文件大小”以前的平衡。而这一阶段与离线开发阶段之间，其实已经存在一个巨大的鸿沟 (GAP1)：

GAP1-1：信号保真度自己没法反映主观质量。为了可以评估算法或工具带来的主观质量的变化，业界通常是经过例如SSIM、VMAF等客观指标来尝试逼近主观质量，但这种方法获得的结果和真实主观质量的相关性有限；更极端的方案，就是对于每一个工具及算法都进行主观质量评估，根据所得的MOS/DMOS评分得到真正的主观质量变化，可是这个方案对人力和时间的需求都很大。

GAP1-2：码率与真实文件大小的区别可能很大。真实的文件大小会受到音频编码、视频内容、目标质量的档位、文件格式的冗余等因素的影响，会和简单估计视频码率产生很大的差别。同时在通常离线测试的时候，为了保证算法迭代效率，测试集最多几十个，最多到百级，是没法表明变幻无穷的视频内容的，尤为是对于UGC短视频内容，场景更是纷繁复杂，大千世界无奇不有。在快手，咱们的实际测试阶段通常天天要进行数万至十万级别视频的线上环境测试，测试通常进行一周左右才能看到线上真实文件大小的变化。而根据咱们技术团队的实际经验，实际测试阶段的文件大小变化和离线测试的码率变化的差距甚至可能达到50%~100%。

是否跨越这个阶段就万事大吉了呢？固然不是。从第二阶段到第三阶段，即真实上线阶段之间，鸿沟依然巨大：

GAP2-1：主观质量和用户行为之间的关系依然是一个迷团。即便在测试阶段对主观质量有了必定的评估，主观质量的变化首先须要被用户感知或感觉以后，才会对用户的行为产生影响，这种影响对单个用户或单次行为多是很是微小的，好比多看了一个视频或者某个视频多看了几秒。但现阶段学术界对人类视觉系统(HVS)的运做规律依然知之甚少，因此咱们目前只能经过平台的亿级用户的百亿级播放量，来进行大规模A/B实验和观察用户的QoE/QoS指标，从侧面反映及理解用户的真实行为。

GAP2-2：真实文件大小和最终线上带宽节省的差距不容忽视。不少人认为真实文件的大小的变化就是最后线上带宽成本的变化，这是一个常见的错误认知。问题在于每一个做品有其不一样的热度，播放量少则十几回，多则百万次甚至千万次。每一个视频的码率的节省或者增长须要乘以每一个做品的播放次数，才能计算出最终带宽的变化结果。同时还要考虑设备的限制，线上的下发逻辑等，而这些条件都会影响线上不一样档位及不一样标准的用户端覆盖率，所有考虑在内后才能推测出真实线上带宽的变化。

_所以只有跨越了这些鸿沟，最终到达第三阶段即真实上线阶段，才可以体现算法、工具和标准是否对用户有影响，是否对用户体验有贡献，才可以体现编解码开发者的真正价值。_借用某部电影中的一句台词来总结这三个阶段，就是九个字，第一个阶段“见本身”，第二个阶段“见天地”，第三个阶段“见众生”。

3.2 咱们的作法

接下来将详细介绍咱们团队平常是如何来进行开发，跨越多个鸿沟突破这三个阶段，提升用户最终体验的。

3.2.1主观质量盲测标注平台

咱们依照VQEG标准规定的方式，构建了快手的主观质量盲测及标注平台以及一系列的测试标准，在内部已推广至多个部门及团队。同时咱们联合QA团队，培养了一批“黄金眼”。经过组织“Gold Eye敏感性测试”，筛选出一批观察入微，对质量变化敏感度高的同窗做为“黄金眼”的备选团队。

而对于咱们开发的每个算法及工具，在上线以前，咱们都会联合QA团队和“黄金眼”团队的成员一块儿来进行主观评测，取得MOS/DMOS分数。同时仔细分析每一个视频质量的优劣。通过多维度的对比评价，经过主观质量盲测的算法和工具才能进行到下一个A/B测试的阶段。

3.2.2 音视频相关主要指标-评估收益

A/B 测试是针对一个变量的两个版本，来观察用户的不一样反应，从而测试哪一个版本更有效的一种方法。例如：将视频按照不一样的算法压缩两个版本，下发至千万级的实验用户组和对照用户组，而后观察这两个用户组的行为。一般来讲，观察的指标为两大类：QoS和QoE。

QoS指标包括首屏时长、卡顿率、丢帧率等等，和用户体验息息相关。并且咱们团队自三年前就持续关注用户播放时的CPU、Memory和功耗状况，而这些指标对用户体验也影响深远。

QoE指标包括播放量、人均播放时长、播放完成率等等，是用来衡量最终优化效果的指标，QoE才是反映用户在平台的停留时长、反映用户对平台是否喜好的因素。通常对算法A/B实验的原则是必需要将QoE所有指标优化至正向或持平的状态才能上线，而QoE负向的话是不可能上线的。不少算法在离线测试阶段，甚至是实际测试阶段都有着不错表现，但每每上线A/B测试后才发现QoE指标不理想。因此只有经过在真实上线阶段，才能反映算法和工具对用户体验是否真的有正面影响。同时咱们也会分多个维度来分析QoE和QoS的指标，包括客户端、手机系统、版本、机型、粉丝数、地域、同时在线人数等等。快手内部有一个完善的流媒体大数据平台，部门内也有专门的数据分析师和算法的开发同窗一块儿结合自动化工具来分析这些指标。

3.3 快手短视频编码能力发展历程

这是咱们首次对外披露快手的短视频转码能力，也是咱们部门多个团队合做的一个阶段性总结。因为线上带宽数据涉及公司机密，因此这里只能以“实际文件大小”数据来间接描述总体的能力。

3.3.1 时间线

“K系列编码器”是快手自研的一系列视频及图像编码器的统称，包括K264，K265以及KVC。涵盖了四种不一样的编解码标准，其中包括由ITU-T与ISO/IEC联合发布的国际标准H264/AVC和H.265/HEVC；由快手自研的视频编码标准KVC以及自研图像编解码标准KPG。

如图中所示，快手的线上短视频转码共经历了两次重大的技术迭代。自2018年7月起，咱们开始进行自研编解码器的研发和上线。2018年末咱们自研的K265全面上线，快手由H.264/AVC时代进入到H.265/HEVC的时代，而整个H.265/HEVC时代线上的文件大小降低了56%。

自2018年末开始，咱们开始了自研编解码标准KVC项目以及对应编解码器的开发。在经历了坚苦卓绝的算法研发以及大量的A/B实验后，KVC于2020年初全量上线，这也标志着快手提早进入了编解码的“次时代”，进入了快手自研编解码标准--KVC的时代。对比H.265/HEVC当时压缩比最高的档位Unicorn，线上的文件大小降低了27%。

而上述这些数据，是_快手线上天天千万级新增视频，天天百亿次用户播放的真实数据，是通过屡次实际A/B实验后，分析优化跨越鸿沟后的成果，是两年来多个部门团队通力合做，持续迭代的心血。_

可以在线上实际应用场景取得如此的收益，其实也得益于咱们的技术团队深度参与多个国际视频标准的制定，在视频技术的最前沿有着深厚的积累和贡献。在新一代视频压缩国际标准H.266/VVC的制定中，快手提交了过百件技术提案，并有数十件技术提案获采纳进入H.266/VVC标准。而在AVS3标准的制定中，快手从2020年3月开始参与，已有12件技术提案获采纳进入AVS标准。

3.3.2 指标收益

这里咱们给出K265以及KVC上线后，线上真实的指标收益。文件大小的收益其实与咱们离线测试的结果有着很大的不一样，这也是咱们在以前文中提到的两个阶段的鸿沟之一。另外一方面，QoE及QoS的结果在没有进行线上A/B实验，仅凭离线测试阶段的测试是彻底没法预测和衡量的。

K265-Romeo上线后，除了明显的带宽成本收益外，QoE在人均观看时长和人均播放次数上也得到了必定增益。而QoE上的收益咱们猜想是由于QoS的大幅提高，从而影响到了用户行为。

KVC-1.0上线时，成本收益显而易见，卡顿率也明显降低，但QoE收益基本保持不变。咱们推断多是由于以前降低的幅度也比较大，用户已进入QoS的温馨区，感觉就没有那么明显。

3.4 编码端优化算法：CAQ + CARDO

在K系列编码器中，咱们有着大量的自研工具及算法优化，而大部分的算法及工具都是通过了屡次上线实验的反馈迭代而成。CAQ就是其中的一个很典型的例子。

CAQ这个工具比较有趣，由于其上线后的收益比实际测试阶段的收益要高出50%，在同等文件大小下主观质量提高明显，但同时部分客观指标会降低，因此并不适合离线测试评估或进行“打榜”，但对于真实用户体验有明显提高。下面简要介绍一下CAQ的算法。

其算法的主要思想以下：CAQ算法中的第一部分相似x265中AQ的操做，在获取视频帧后对其进行内容分析，得到JND Factor从而计算出QP偏移。JND Factor包含三个部分：一是图像块的平均亮度值；二是纹理强度（纹理强度指的是首先作一个边缘检测，获得块级边缘强度和梯度方向）；三是纹理特色，例如是平滑、边缘、规则纹理（例如网格）、不规则纹理（例如草地或噪声）等。根据这三个特征，再结合内容的运动特性，从而获得块级的QP偏移。可是，直接使用这些QP偏移可能会形成帧或序列级别的码率波动较大，为了控制这种波动，咱们使用一个模型来预测CAQ可能产生的码率变化，从而再次修正QP偏移。同时结合视频内容特征，在CAQ和自适应CUtree这两个工具所产生的QP偏移值之间进行合理选择，让那些主观质量提高不明显的序列可以最大化客观性能收益。

CAQ算法中的第二个部分CARDO主要包括两个算法：第一，感知量化（perceptual quantization），即在量化过程当中保留主观失真敏感度高的区域的部份量化系数；第二，融合边缘梯度失真（edge-based gradient difference）的率失真优化，即在率失真代价函数中的失真部分加入边缘梯度失真（edge-based gradient difference），同时对λ的选择进行调整。

下图是总体方案应用后的一个例子。咱们将蓝色部分的码率从新分配给黄色和绿色的部分。如图可见，原来衣服上珠花的部分其实分配了大量的比特，但人眼对复杂的不规则纹理并不敏感。当咱们将这部分码率拿出来从新分配给睫毛、人脸等一些细节部分时，总体主观质量的提高就会很是明显。

4 Atlas实际应用

下面将介绍两个Atlas实际应用的例子，分别是CAPE（基于内容的处理与编码）和视频AI智能加强。

4.1 Atlas-CAPE

Content Aware Processing & Encoding (CAPE) 指的是内容自适应的处理和编码，主要能够分为如下几个维度：Per-Category、Per-Title、Per-Segment，再细化的话还有Per-Frame和Per-Block等。这个概念早已存在，如Netflix和YouTube在线上也有不少这个方向的应用，其最大的难点就在于如何衡量质量，及如何寻找到一个质量“足够好”的工做区间。

目前快手线上CAPE的应用有多个种类，并大规模应用于短视频上传，转码以及直播等场景。

上图是一个Atlas经常使用的CAPE框架。Capella就是以前在Atlas架构中提到的决策和分析层。在决策和分析层中会主要分析以下几个方面：其一，视频源的Metadata，即视频的生产类型和上传途径等原始信息；其二，进行热度分析，掌握其当前的观看数、点赞数等；其三，视频的基础数据，好比宽、高、帧率和码率；其四，进行视频的时间和空间复杂度分析；其五，对内容进行基础特征分析，而基础特征中包含了模糊程度、噪声估计、压缩失真估计等等。其六，对视频进行内容理解，基于场景分类作针对性编码方案。经过算法决策模块能够得出是否要作视频加强，作哪些视频加强，作多强的视频加强，得到对应的参数，同时告诉编码器，应当使用哪些档位编码可能会比较好。

再举个例子——直播推流中的CAPE应用。为尽可能避免算法变得很笨重，在直播应用中实际用到的分析步骤很少，同时咱们会下降分析的频率，约一秒钟一次对视频源进行时间、空间的复杂度进行分析，同时再附以一些基础特征的获取。其中最大的难点是在作直播推流时，移动端有很大比例用的是硬件编码器(如iOS平台的VideoToolbox)，可配置参数都比较基础而且数量较少，此时咱们会给出一个硬件建议编码参数，来保证在场景切换或是在一些座谈场景时，可以尽可能不要多浪费码率。直播推流CAPE上线后，文件大小下降了约10%，QoE没有明显变化，QoS收益也接近10%。

4.2 Atlas-AI视频加强

下面介绍Atlas在实际应用中的另外一个例子：AI视频加强。在Atlas-AI视频加强算法触发策略中，最重要的工做是在分析模块Capella中完成的。

首先，根据视频的分辨率以及导入逻辑，判断它是否是从别的平台导入，是否经历过屡次的压缩，当前的视频质量到底如何，进而根据不一样的质量选择不一样的模型。另外根据分辨率，可能会用到不一样种类的SR网络或算法，有的是固定上采样大小，有的是任意上采样大小。同时每一个视频还会进行噪声和色彩及亮度评估，看是否须要进行降噪处理或HDR优化。

目前，经由De-Art/SR处理过的视频在线上播放端覆盖率约为10%，并未占用过多机器资源。由于咱们技术团队对模型复杂度作了大量的简化，在算法精度显著提高的状况下，速度提高到了最第一版本的7倍左右。SR优化后实现了720p/30fps，De-Art优化后效果更显著，从最先版本的7fps提高到50fps。

咱们依然在持续观察用户对于具体效果的感知及行为变化。按照10%的覆盖率来评估的话，De-Art/SR上线后，在播放量和播放时长方面的收益很是明显的，总体的投入产出比（ROI）很是高。

小结和将来展望

在快手海量且场景丰富的视频业务背景下，Atlas通过了持续考验和打磨，已经成长为愈来愈标准化、通用化的技术架构，咱们将继续丰富和沉淀算法和平台能力，把对客户和用户更具价值的技术方案和产品提供出来，以应对国内、海外，点播、直播、实时互动等多样化的场景考验。更长期来看，咱们的团队但愿可以面向5G+AI时代的要求，将云端音视频处理和生成能力向极致的高性能方向不断深刻优化，而且保持好奇心，持续探索各类技术和业务创新的可能性。