FaceNet（CVPR，2015）

论文： Wu X, He R, Sun Z, et al. A Light CNN for Deep Face Representation with Noisy Labels[J]. Computer Science, 2016.

论文算法概述

   提出一个用于人脸验证、人脸识别和聚类问题的框架。该方法利于深度卷积网络去训练为每张图片提取其Euclidean embedding，训练完成后，在embedding space中可以直接使用squared L2 distances去表示两个人脸的相似度。

   其他使用深度网络人脸识别方法大多利用softmax分类层来进行身份的监督训练，然后取中间层输出作为身份特征。但因为希望训练出来的模型能够很好地应用的新的人脸图像中，这样以分类问题处理并不够直接；并且为充分表达每张人脸图像，其特征向量一般会很长，导致算法效率低。为提高效率，也有人使用PCA对特征向量进行降维，但PCA是线性变换，添加一个网络层即可较容易地学习出来。

   而该论文中的FaceNet输出的是128维特征，使用基于LMNN的triplet based loss function进行训练。triplet loss如下figure所示，直接地反映了人脸验证识别所要达到的目标。这triplets包括两个匹配的face thumbnails和一个不匹配的face thumbnails，而thumbnails指的是紧贴着人脸区域的图像块，只需要尺度和平移变换，而不需要2D或3D对齐。

Triplet Loss

以f(x)表示编码过程，将图像x映射到d维的欧式空间上，限制f(x)的L2范数为1，所以Triplet Loss如下式子，训练使L最小化。其中a/p/n分别对应anchor/positive/negative，alpha是强制的类间间隔。

Triplet Selection

少量样本即可产生大量的Triplets，但大部分Triplets对网络贡献并不大，如果将所有可能的Triplets都用于训练，会导致收敛速度很慢。所以需要合理选取Triplets，在给定anchor，希望找到的positive与其距离较远(hard positive)，找到的negative与其距离较近(hard negative)。但这样选取Triplets时，不太可能将整个训练集都计算一下每对样本的距离，而且选取过程中很容易选到噪声样本，因为噪声样本较容易满足这些要求。

所以文中给出了两种选取方法来解决这些问题：1、在线下每N步生成一次Triplets，使用训练过程中最近保存得到的模型在样本子集中计算距离；2、在线上每个mini-batch中生成。

实验中使用线上生成的方式，对训练样本进行采样使每个mini-batch中的每个身份都有约40张人脸图像，然后随机选取一些不匹配的人脸样本加入到该mini-batch中。使用mini-batch中所有的anchor-positive对，并选择其对应的hard negative。这里没有必要去一一比较每个anchor-positive对来找到hard anchor-positive对，因为实验发现使用全部anchor-positive对去训练，收敛也很快。

同时也会结合采用线下生成的方式，获取一些semi-hard的样本对，这里的semi-hard是指忽略掉Triplet Loss目标函数中的alpha后得到的样本对。

Deep Convolutional Networks

如下左为基于ZF网络设计的模型，命名为NN1，右图为基于Inception结构的NN2。

实验

在LFW上将人脸图像进行固定的中心裁剪，人脸验证准确率为98.87%；如果使用人脸对齐后再输入实验，则为99.63%。

cjmcv

计算机视觉算法学习笔记

论文算法概述

Triplet Loss

Triplet Selection

Deep Convolutional Networks

实验