近年来,随着人们对安全性的需求不断提高,以及低端消费设备、飞机登机、边境管制和金融服务等行业的应用不断增多,人脸识别 (FR) 技术取得了长足进步。有效的 FR 系统的核心是关键组件 — 数据。大规模数据集对于训练这些模型以在各种条件下准确识别和验证人脸至关重要。
为了使 FR 可靠,模型必须接触各种数据,包括人口统计、光照、环境、表情和遮挡的变化。这可确保部署的稳健性和公平性,从而降低遇到不熟悉条件时出现偏差或失败的风险。
使用 genAI 技术创建的合成数据集可能会有所帮助,但就目前而言,它们无法完全取代现实世界的数据集。本文探讨了合成 FR 数据集的优缺点,并研究了 genAI 在人脸识别方面的现状。
LFW 、 Cfp-fp 、 Agedb-30 、 Ca-lfw和Cp-lfw是用于评估 FR 模型验证性能的一些最广泛使用的数据集。表 1 显示了使用相同算法训练的 ML 模型在不同大小的真实世界人脸数据集上的验证性能。
可以看出,数据集大小如何影响模型性能,以及获得稳健的 FR 模型必须进行的数据采集的规模。验证意味着给模型一对人脸图像,并预测这对人脸是属于同一个人还是两个不同的人。报告了模型预测的验证准确率百分比。
数据集 | 机器学习 | # 训练 | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 50万 | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
resnet-50 | 1200 万 | 99.80 | 99.20 | 98.10 | -- | -- | |
resnet-50 | 1700 万 | 99.83 | 99.33 | 98.55 | 96.21 | 94.78 |
表 1.五种不同 FR 基准上的验证准确率(%)。为了公平比较,所有结果均来自使用相同 ML 模型和算法的原始已发表作品。
除了大规模训练数据集之外,数据集包含最小偏差也同样重要。首先了解偏差在 FR 上下文中的含义非常重要。一般来说,对于机器学习模型,偏差是指模型在不同类型的输入数据中表现不一致。FR 模型可以以不同的方式产生偏差。
最常见的例子是种族偏见,当呈现特定种族的面孔时,FR 模型往往表现不佳。
然而,这并不是获得可靠的 FR 模型需要克服的唯一偏见。年龄偏见、性别偏见和环境偏见(面部遮盖物、面部毛发等)是 FR 模型可能表现出偏见的其他一些例子。通过收集和包括用于训练 FR 模型的数据集中的代表性样本,可以最大限度地减少这些偏见。
获取相隔十到十五年的不同种族的人的照片,或在不同背景、不同光照条件下、具有不同面部表情的人的照片,可能是一项艰巨的任务。
此外,为 FR 收集真实世界数据还带来了许多其他挑战。从世界各地获取如此大规模的多样化数据成本高昂。除了成本和技术限制外,由于道德和隐私问题,数据获取也变得越来越困难。
生物特征数据受欧洲 GDPR 等法律的管辖(
这些法律规定了各居民生物特征数据的获取和存储,这进一步增加了大规模生物特征数据获取的复杂性。鉴于对人脸识别应用的需求不断增长,现在是探索合成数据可行性的关键时刻,研究其利弊,以开发可扩展、合乎道德且符合法律要求的人脸识别系统。
这些挑战,加上生成式人工智能 (genAI) 的兴起,促使大量研究创建合成数据来取代现实世界中敏感的生物特征数据。在深入研究 FR 中合成数据的现状之前,必须先了解 genAI 的含义。
简单来说,genAI是一种人工智能,它可以根据经过训练的数据创建新的内容,例如文本、图像或音乐,生成的数据被称为“合成数据”。
用于人脸识别的 GenAI 因多种原因而特别吸引人。最值得注意的是,合成数据集是由人工智能生成的,这意味着研究人员、工程师和爱好者可以构建(并训练)数据集,而无需经过从真实个体获取图像的手动过程。
真实图像数据集的收集和使用中的许多合规性要求对于合成数据并不存在,并且从理论上讲,使用真实图像数据训练的算法可能导致的偏差可以通过合成数据更好地解释。
然而,合成人脸数据集还不是灵丹妙药。本文的以下部分介绍了合成数据集的优势、不足之处以及 genAI 在人脸识别方面的现状。
合成数据具有多种优势,使其成为人脸识别技术开发中的重要工具。主要优势之一是合成数据集不需要获取真人图像。合成数据不直接使用真实个人数据,因此不会提出使用同意和被遗忘权等隐私合规要求。
生成合成数据也比收集和注释大量现实世界数据更具成本效益,因为收集和注释现实世界数据不仅需要花费时间和资源来确保此类数据集符合法律和道德规范,而且还是手动、耗时且昂贵的过程。合成数据允许创建受控环境,在其中可以操纵特定变量,从而有助于测试和微调人脸识别模型。
此外,合成数据使创建和获取大型数据集变得更加容易,尤其是在现实世界数据稀缺、难以收集或法律要求和道德考虑使此类收集无法进行的情况下。GenAI 方法还可用于补充现有的现实世界数据集,填补空白以减少人口或其他方面的偏见。
例如,许多公开发布的大规模人脸数据集主要由白种人组成,这导致基于此类数据训练的 ML 模型存在人口统计学偏差。使用合成数据集可以轻松解决此问题。
对于图像领域,生成对抗网络 (GAN) 是用于生成数据的最流行的模型之一。Nvidia 的
然而,所有这些技术在成本、时间、可生成的唯一身份数量以及性能方面都存在局限性。
理论上,合成数据集具有“真实”的面孔,并且种族、性别、姿势、光照和背景变化等各种属性均经过控制,其表现应该优于真实的“自然”数据集。那么,为什么在这些数据集上训练的模型的表现远不及在相同大小的真实世界数据集上训练的模型呢?这个问题的答案在于真实世界数据本身不受控制的特征。迄今为止,尚未有任何已发表的研究完全捕捉到真实数据中变化的幅度。
如果数据集中所有合成身份的变体数量相同且数量有限,则会损害模型性能。如果试图增加变体数量,则会导致面部身份也发生变化,从而在数据中引入噪音,进而再次损害模型性能。
表 2 列出了在不同合成数据集上训练的相同 FR 模型架构 (Resnet 50) 的性能。还列出了在大小大致相同的真实数据集上训练的模型的基准性能。该表还列出了每个合成数据的发布年份。
数据集名称 | ML 模型 | # 训练图像 | |||||
---|---|---|---|---|---|---|---|
resnet-50 | 50万 | 99.55 | 95.31 | 94.55 | 93.78 | 89.95 | |
Synface (2021) | resnet-50 | 50万 | 91.93 | 75.03 | 61.63 | 74.73 | 70.43 |
Digiface-1m (2022) | resnet-50 | 50万 | 95.40 | 87.40 | 76.97 | 78.62 | 78.87 |
DCFace (2023) | resnet-50 | 50万 | 98.55 | 85.33 | 89.70 | 91.60 | 82.62 |
表 2.在广泛使用的 FR 评估数据集上,使用合成数据训练的模型所实现的验证准确率(%)。第一行是该模型在类似大小的真实世界数据上实现的基准性能。所有结果均来自使用相同 ML 模型和算法的原始已发表作品。
如表 2 所示,在合成数据上训练的模型表现不如在真实数据上训练的模型。虽然在“简单”和小型数据集(如“LFW”)上的表现差距很小,但在其他更复杂的数据集(如 CFP-FP 和 Agedb-30)上,差距更为明显,这些数据集分别包含面部侧面视图样本和跨多个年龄段的同一个人面部样本。
值得注意的是,近年来基于合成数据训练的模型的性能有所提高。
验证合成数据的有效性仍然是一个挑战。确保合成数据准确反映真实世界的情况对于构建可靠的人脸识别系统至关重要。然而,验证过程很复杂,需要强大的方法来确保数据的质量和适用性。
一种可能的解决方案是开发一个 genAI 模型,该模型也可以在合成数据中模仿这些特征。可以通过在包含大量面部属性、图像质量和背景变化的真实数据集上训练生成模型来克服这些限制。质疑这些数据可能来自哪里是合理的。这种数据获取将面临上述所有约束,即道德、法律和成本限制。
然而,训练生成式 FR 模型所需的数据集较小,因此这些问题得到了缓解。Nvidia 的
合成数据有望推动人脸识别技术的发展,但我们必须认识到其目前的局限性。虽然 genAI 的优势包括合成样本的真实性,以及易于精细调整图像以增强或减弱面部表情、头部姿势、面部毛发等特征,但使用真实数据和合成数据训练的模型之间的性能差距很大。
合成数据还不能替代精心策划的真实数据集。即便如此,随着数据生成技术的进步,合成人脸数据的质量正在赶上真实世界数据的质量,因此,我们可以推测,在不久的将来,合成数据可能完全消除使用真实世界人脸数据进行 FR 训练的需要。
特色图片来自