(Face-Verification-Identification)

主页：https://www.msceleb.org/

数据下载：https://www.msceleb.org/download/sampleset

主页2：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

简介

   由微软为人脸识别任务提供的训练和测试集，其中的训练集包含10w（100k）人的100w（10M）张图片。这里的人脸识别任务主要分两个，1）从人脸图像中识别，并通过库中对应的entity keys（唯一的索引键值或机器ID号）得到其身份；2）与1类似，多了个限制条件，一些人的训练样本很少，即“Know you at One Glance”。

Challenge-1任务描述

从人脸图像中去识别一百万个名人，并通过这些人在知识库内唯一的entity keys来得到其身份。

Challenge-1训练集

提供的训练集包含10w个名人，由以下几个步骤进行收集：

根据流行程度从1M名人名单中选择10w个名人；
利用搜索引擎来为每个名人找到约100张图像，即会共有一千万张图像；
进行检测、裁剪和对齐人脸，同时也提供原始图的缩略图作为参考。

需要注意的是这些训练样本都是没有进行过人工的去噪的，即会有不少的错误标签，参赛者可以自行进行数据清洗。同时在竞赛中，这个数据集仅是为了帮助参赛者快速开始，不对额外的数据做限制，但鼓励参赛者将数据收集也看成是人脸识别挑战的一部分。

此外，当前提供的训练集MS-Celeb-1M.v1仅涵盖测试集合中的75%的名人，这就意味着基于提供的训练集的识别召回率不会高于75%。这主要是出于两个方面的考虑，首先，出于时间和资源的限制，只能准备这top10w的名人作为v1的数据集去帮助参赛者快速开始，后续这个量会慢慢增加；再者，这里鼓励参赛将数据收集处理作为这项挑战的关键问题来对待，并明确指出不限制额外的数据集。

Challenge-1测试集

其构建步骤如下：

从一百万名人的列表中选择1500个名人，这选择的方式是75%的较出名的（即会出现在训练集中），25%的没那么出名的（即该部分未被纳入提供的训练集中）；
通过多次搜索查询去截取图像以确保图像的差异，然后人工标注这些图像以确保标签无误。为了加大挑战性，混合入一些干扰图像在内。
对每个名人各选择两张图像去组成两个图像集。Random set:在这个子集里的图像是随机挑选的，每个人一张。这个集合可以揭示多少人被该模型涵盖在内进行测试。Hard set:在这个子集里的图像是与训练集中的其他图像是最不同的。每个人一张。这个集合是用来评估模型的泛化能力以及在复杂场景下的鲁棒性的。

该测试集的1500人中，保留500人用于开发和调试，剩下的1000人才是作为官方发布的测试集。

Challenge-2任务描述

在该挑战中，我们研究了low-shot人脸识别问题，目的是构建一个大规模的人脸识别器，能够识别大量的个体并具有较高的识别率和召回率。这里生成一个基准数据集，包含21K个人，每人50-100张图片，标签准确率达99%。将这个数据集分成以下两个子集：

Base set，含2w人，每人50-100张图像用于训练，5张图像用于测试。

Novel set，含1k人，每人1-5张图像用于训练，20张用于测试。

目标是研究当在base集中每人给定数十张，而在novel集中每个给定5张时，如何去训练一个算法在这两个数据集中都能表现得好。

这base集是用来帮助训练人脸识别特征的。使用一个标准的34层残差网络，在base数据集上训练，我们可以达到单模型在LFW上98.88%的准确率。

cjmcv

计算机视觉算法学习笔记

简介

Challenge-1任务描述

Challenge-1训练集

Challenge-1测试集

Challenge-2任务描述