论文: Zhang J, Kan M, Shan S, et al. Occlusion-Free Face Alignment: Deep Regression Networks Coupled with De-Corrupt AutoEncoders[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2016:3428-3437.
论文算法概述
提出一种级联几个深度回归网络结合去遮挡自动编码机来解决局部遮挡问题。开始用一个深度回归网络去预估人脸形状,然后设计个去遮挡自动编码机基于当前的人脸形状去恢复外观,然后去遮挡后的脸用于连续的深度回归网络去进一步限制人脸形状。文章贡献如下:1)提出人脸对齐的新算法可解决局部遮挡的问题; 2)提出的去遮挡自动编码机可以自动恢复遮挡部分真实的外观,且恢复的部分可以和未被遮挡部分整合到一起得到更高的准确度。 3)在OCFW和COFW中获得很好的效果。
深度回归网络,表征外观到形状的非线性映射
第二项为正则项:
自动编码机,复原遮挡部分
传统自动编码机网络包含编码和解码两部分,用最小化输入的重构误差来进行非监督训练。由于自动编码机受欢迎的重构能力,提出的去遮挡自动编码机设计用来恢复遮挡部分的原来外观。考虑到实际情况中人脸外观受不同的姿态和表情影响,把人脸区域分成几个组成部分,并设计几个独立的去遮挡自动编码机网络。(一个训练集构建方式:收集大量正常人脸图片,使用背景块对人脸图像进行随机贴补,形成遮挡样本。)在使用时,输入遮挡图像进行重构,根据原图的遮挡部分截取重构图像中对应部分对原图进行覆盖,获得的图像输入进行下一步形状优化。(确定被遮挡部分的方式:计算输入和重构输出图像的差异,简单认为差异大于一定阈值的像素为被遮挡的像素,在分割的几个组块中被遮挡像素占比例高于30%的认为改组块被遮挡了)
级联
脸形状由回归网络得到,但由于部分遮挡以及姿态、表情等的影响,不能很好的达到效果,为了得到更好的效果,几个连续的回归网络组合去遮挡自动编码机被级联在一起。
实现细节
整体模型包括三阶,第一阶中,回归网络有三层,包含两个非线性隐藏层和一个线性层,隐藏神经元分别有784个和400个。紧接着的两阶中,回归网络更深,包含三个隐藏层,分别有1296,178和400个隐藏神经元,和一个线性回归层。整体网络的第一阶输入人脸图像为80*80,后面两阶使用更高的分辨率用于更精确的估计。初始形状为均值人脸。对于每阶,权重衰减系数为0.001;人脸关键点设置68点,分成7个组件,每个组件会有一个包含一个隐藏层的去遮挡自动编码机,隐藏单元为576个;使用sigmoid函数去激活深度回归网络和去遮挡自动编码机。