Face Anti-Spoofing Using Patch and Depth-Based CNNs

实现方法

  1. 局部特征+整体深度图

    • 局部特征提取自人脸区域内的随机块
    1. 深度特征利用了整个人脸,并将人脸描述为三维图像
  2. 使用了两个CNN

    • patch-based CNN:端到端训练的,并为每个从人脸图像中随机抽取的patch打一个分数,取平均分
    • depth-based CNN:完全卷积网络(FCN),对人脸图像的深度图进行估计,并提供一个活度评分

架构图

在这里插入图片描述
无论是外观提示还是深度提示都可以独立检测人脸攻击,融合这两种线索可以得到更好的结果。

  • 使用局部特征
    1. 可以增加训练样本数量,
    2. 不用对人脸大小进行调整,保持原始人脸图像的分辨率,从而保持识别能力
    3. 假设特定于欺骗的识别信息在整个人脸区域存在空间上,patch-level输入可以强制CNN发现这些信息,而不管patch的位置如何。与使用整个面部图像相比,这是一个更有约束或更具挑战性的学习任务
  • CNN结构
    在这里插入图片描述
  • 输入图片 -> 检测人脸 -> 根据眼睛位置裁剪区域 -> 随机选取大小固定的patch -> patch-based CNN -> score
  • 对于FCN,其参数是独立于输入人脸图像的大小的
    • CNN输入: H S V + Y C b C r HSV + YC_bC_r 特征
    • 下采样部分:6个卷积层和2个最大池化层
    • 上采样部分:5个卷积层,其中包含4个转置卷积层
    • 每层之后跟一个leaky-ReLU层
    • 损失函数:
      a r g m i n Θ J = f ( I , Θ ) M F 2 argmin _{\Theta} J = ||f(I,\Theta)-M||^2_F
    • 用SVM分类器进行分类,RBF核
      • 为了保证SVM的输入维数是相同的大小,深度t图像被一个N × \times N的网格单元覆盖,并生成一个 n 2 n^2 维的向量
      • 采用高斯混合模型来拟合输入图像大小的分布,从而正确确定训练SVM的数量