paint-brush
在野外寻找人工智能生成的面孔:结果经过@botbeat
144 讀數

在野外寻找人工智能生成的面孔:结果

太長; 讀書

人工智能可以为网络诈骗创建逼真的假脸。这项研究提出了一种在图像中检测人工智能生成的人脸的方法。
featured image - 在野外寻找人工智能生成的面孔:结果
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

作者:

(1)Gonzalo J. Aniano Porcile,领英;

(2)杰克·金迪(Jack Gindi),领英;

(3)Shivansh Mundra,领英;

(4)James R. Verbus,领英;

(5)Hany Farid,领英和加州大学伯克利分校。

链接表

4.结果

我们的基线训练和评估表现如表 2 所示。评估分为评估图像是否包含人脸(训练图像仅包含人脸)以及图像是否使用与训练时相同(引擎内)或不同(引擎外)的合成引擎生成(参见第 2.6 节)。为了直接比较训练和评估的真阳性率[8] (TPR),我们调整了最终分类阈值,使假阳性率[9] (FPR) 为 0.5%。


在 FPR 固定为 0.5% 的情况下,AI 生成的脸部在训练和评估中的正确分类率为 98%。在用于训练的不同合成引擎(StyleGAN 1、2、3、Stable Diffusion 1、2 和 DALL-E 2)中,TPR 略有不同,最低为 Stable Diffusion 1 的 93.3%,最高为 StyleGAN 2 的 99.5%,StyleGAN1 为 98.9%,StyleGAN3 为 99.9%,Stable Diffusion 2 为 94.9%,DALL-E 2 为 99.2%。


对于由未使用的合成引擎生成的面孔



图 3. 正确分类 AI 生成人脸的真正率 (TPR)(固定 FPR 为 0.5%)是以下因素的函数:(a) 分辨率,其中模型在 512 × 512 图像上进行训练并针对不同分辨率进行评估(实线蓝色),并在单一分辨率 N ×N 上进行训练和评估(虚线红色);(b) JPEG 质量,其中模型在未压缩图像和一系列 JPEG 压缩图像上进行训练,并针对 20(最低)到 100(最高)之间的 JPEG 质量进行评估。



训练(引擎外)时,TPR 在相同 FPR 下下降到 84.5%,显示出良好但不完美的域外泛化。在训练中未使用的不同合成引擎中,TPR 差异很大,Midjourney 的最低值为 19.4%,EG3D 的最高值为 99.5%,generated.photos 的最高值为 95.4%。我们的分类器在某些情况下泛化得很好,但在其他情况下则失败了。然而,通过将这些引擎外图像纳入初始训练,这一限制可能会得到缓解。


一个特别引人注目的结果就是,非人脸图像(由与训练中使用的相同合成引擎生成)都被错误分类。这很可能是因为我们的一些真实图像不包含人脸图像(参见第 2.1 节),而所有 AI 生成的图像都包含人脸图像。由于我们只对检测用于创建帐户的假人脸感兴趣,因此我们认为这不是一个主要限制。这个结果还表明,我们的分类器锁定了 AI 生成的人脸的特定属性,而不是来自底层合成的某些低级伪像(例如噪声指纹 [8])。在第 4.1 节中,我们提供了额外的证据来支持这一假设。


上述基线结果基于分辨率为 512×512 像素的训练和评估图像。图 3(a)(实线蓝色)显示的是将训练图像缩小到较低分辨率(256、128、64 和 32)然后放大到 512 进行分类时的 TPR。在 FPR 为 0.5% 的情况下,对 AI 生成的脸部进行分类的 TPR 从基线的 98.0% 下降得相当快。


然而,当模型在分辨率为 N × N(N = 32、64、128 或 256)的图像上进行训练,然后根据训练中看到的相同 TPR 进行评估时,真实阳性率会显著提高,如图 3(a)(红色虚线)所示。与之前一样,假阳性率固定为 0.5%。在这里,我们看到分辨率为 128 × 128 的 TPR 仍然相对较高(91.9%),仅在最低分辨率 32×32(44.1%)时降低。即使在相对较低的分辨率下也能检测到 AI 生成的脸部,这表明我们的模型没有锁定无法在这种级别的下采样中存活的低级伪影。


图 3(b) 显示了分类器的 TPR,该分类器在不同质量的未压缩 PNG 和 JPEG 图像上进行训练,并针对一系列 JPEG 质量的图像进行评估(范围从最高品质 100 到最低品质 20)。在这里,我们看到识别 AI 生成人脸(FPR 为 0.5%)的 TPR 缓慢下降,质量为 80 时 TPR 为 94.3%,质量为 60 时 TPR 为 88.0%。同样,在存在 JPEG 压缩伪影的情况下检测 AI 生成人脸的能力表明我们的模型没有锁定低级伪影。

4.1. 可解释性

如第 4 节所示,我们的分类器能够很好地区分由各种不同的合成引擎生成的 AI 人脸。然而,这个分类器仅限于人脸,表 2。也就是说,当使用与训练中使用的相同合成引擎生成的非人脸图像时,分类器完全无法将它们归类为 AI 生成的图像。


我们假设我们的分类器可能已经学习了语义层面的产物。这一说法部分得益于以下事实:即使在分辨率低至 128×128 像素的情况下,我们的分类器仍保持高度准确(图 3(a)),即使在面对相当激进的 JPEG 压缩的情况下,仍保持相当准确的结果(图 3(b))。在这里,我们提供了进一步的证据来支持这一说法,即我们已经学习了结构层面或语义层面的产物。


众所周知,虽然人类视觉系统中的通用物体识别对物体方向、姿势和透视失真具有高度的鲁棒性,但面部识别和处理对即使是简单的倒置也不太鲁棒 [27]。经典的玛格丽特·撒切尔错觉 [31] 很好地说明了这一效果。图 4 上行中的脸是下行脸的倒置版本。在右侧版本中,眼睛和嘴巴相对于面部是倒置的。这种怪异的特征组合在直立面部中很明显,但在倒置面部中并不明显。


我们想知道我们的分类器是否难以进行分类



图 4. 玛格丽特·撒切尔错觉 [31]:上排的脸是下排脸的倒置版本。右下角的眼睛和嘴巴倒置在脸部直立时很明显,但在倒置时则不明显。(来源:Rob Bogaerts/Anefo https://commons.wikimedia.org/w/index.php?curid=79649613))



垂直倒置的脸部。将相同的 10,000 张验证图像(第 2.6 节)倒置并重新分类。在固定 FPR 0.5% 的情况下,TPR 从 98.0% 下降了 20 个百分点至 77.7%。


相比之下,仅沿垂直轴翻转验证图像(即左右翻转)不会使 TPR 发生任何变化,仍为 98.0%,FPR 也为 0.5%。这对结果,加上分辨率和压缩质量的稳健性,表明我们的模型并没有锁定低级伪像,而是可能发现了一种结构或语义属性,可以将 AI 生成的脸部与真实脸部区分开来。


我们进一步利用积分梯度法探索分类器的性质 [28]。该方法将深度网络的预测归因于其输入特征。由于该方法可以在不改变训练模型的情况下应用,因此它允许我们计算每个输入图像像素与模型决策的相关性。


图 5(a) 显示了对 100 张 StyleGAN 2 图像取平均值的归一化(范围在 [0, 1] 内)积分梯度的无符号幅度(因为 StyleGAN 生成的脸部都是对齐的,所以平均梯度与所有图像的面部特征一致)。图 5(b)-(e) 显示了由 DALL-2、Midjourney、Stable Diffusion 1 和 Stable Diffusion 2 生成的图像的代表性图像及其归一化积分梯度。在所有情况下,我们都看到最相关的像素(对应于较大的梯度)主要集中在面部区域和其他皮肤区域周围。

4.2. 比较

由于 [23] 的工作专注于检测 GAN 生成的人脸,因此与我们的工作最直接相关。在这项工作中,作者表明低维线性模型可以捕捉 StyleGAN 生成的人脸的常见面部对齐。针对 3,000 张 StyleGAN 人脸进行评估,他们的模型正确分类了 99.5% 的 GAN 人脸,而 1% 的真实人脸被错误地归类为 AI。相比之下,我们实现了类似的 TPR,但 FPR 较低,为 0.5%。


然而,与我们的方法不同,该方法可以推广到其他 GAN 人脸,例如 generated.photos,而这项早期研究的 TPR 下降到 86.0%(FPR 也为 1%)。此外,这项早期研究无法检测基于扩散的人脸,因为这些人脸根本不包含与 StyleGAN 人脸相同的对齐伪影。相比之下,我们的技术可以推广到 GAN 和扩散生成的脸部以及训练中未见过的合成引擎。


我们还评估了最近最先进的模型,该模型利用了 AI 生成的图像中傅里叶伪影的存在 [8]。在我们的真实和引擎内 AI 生成人脸评估数据集上,该模型在 FPR 为 0.5% 的情况下仅正确分类了 23.8% 的 AI 生成人脸。这个 TPR 远低于我们模型的 TPR 98.0%,也低于 [8] 中报告的 90% TPR。我们假设这种差异是由于我们的数据集中的自然真实图像更加多样化和具有挑战性。



[8] 真正率(TPR)是人工智能生成的照片中被正确分类的比例。


[9] 假阳性率(FPR)是被错误分类的真实照片的比例。