高分辨率特征网络HRNet

时间 2020-08-02 标签高分辨率特征网络 hrnet

HRNet：Deep High-Resolution Representation Learning for Human Pose Estimation[github]

1、综述

视觉识别主要包括三大类问题：图像层次（image classification）、区域层次（object detection）和像素层次（semantic segment、pose estimation & face ladmark align）。通过分类网络不断的strided convlution或者pooling获得的低分辨率，对空间精度敏感的任务上很难取得准确的预测结果。为了弥补空间精度的损失，研究者们在分类卷积神经网络结构的基础上，经过引入上采样操做和/或组合空洞卷积减小降采样次数来提高feature map的分辨率。git

典型的从低分辨率特征恢复高分辨率特征的结构：github

在这类网络结构中，最终的高分辨表征主要来源于两个部分：第一是本来的高分辨率表征，可是因为只通过了少许的卷积操做，其自己只能提供低层次的语义表达；第二是低分辨率表征经过上采样获得的高分辨率表征，其自己虽然拥有很好的语义表达能力，可是上采样自己并不能完整地弥补空间分辨率的损失。因此，最终输出的高分辨率表征所具备的空间敏感度并不高，很大程度上受限于语义表达力强的表征所对应的分辨率。网络

2、 HRNet

在整个网络中始终保持高分辨率feature map，逐步引入低分辨率卷积，而且将不一样分辨率的卷积并行链接。同时，咱们经过不断在多分辨率表征之间进行信息交换，来提高高分辨率和低分辨率表征的表达能力，让多分辨率表征之间更好地相互促进。HRNet与先前的分类卷积神经网络有着基础性的区别：先前的分类将分辨率从高到低的卷积串行链接，HRNet则是并行链接。ide

3、多分辨率feature map间特征融合

关于多分辨率表征信息交换，这里以三个分辨率输入和三个分辨率输出为例，如图4所示。每个分辨率的输出表征都会融合三个分辨率输入的表征，以保证信息的充分利用和交互。将高分辨率特征降到低分辨率特征时，咱们采用stride为2的3x3卷积；低分辨率特征到高分辨率特征时，先利用1x1卷积进行通道数的匹配，再利用最近邻插值的方式来提升分辨率。相同分辨率的表征则采用恒等映射的形式。性能

4、网络具体结构

5、实验

5.1 输出feature map分辨率大小对性能影响3d

HRNet可输出4种分辨率的表征（1x、2x、4x、以及8x），咱们针对不一样的网络输出分辨率在两组模型上作了对比。blog

5.2 不一样大小特征融合次数对性能影响get