作者：  （1）Gonzalo J. Aniano Porcile，领英；  （2）杰克·金迪（Jack Gindi），领英；  （3）Shivansh Mundra，领英；  （4）James R. Verbus，领英；  （5）Hany Farid，领英和加州大学伯克利分校。 链接表 摘要和简介 数据集 模型 结果 讨论、致谢和参考文献 2.数据集 我们的训练和评估利用了 18 个数据集，包括 120,000 张真实的 LinkedIn 个人资料照片和 105,900 张 AI 生成的脸部照片，这些照片来自五种不同的 GAN 和五种不同的扩散合成引擎。AI 生成的图像主要分为两类：有脸图像和无脸图像。真实和合成的彩色 (RGB) 图像从其原始分辨率调整为 512 × 512 像素。表 1 显示了这些图像的说明，图 2 显示了每个 AI 生成的类别的代表性示例，如下所述。  2.1. 真实面孔 这 12 万张真实照片是从 2019 年 1 月 1 日至 2022 年 12 月 1 日期间上传了可公开访问的个人资料照片的 LinkedIn 用户中抽样得出的。这些帐户在平台上至少有 30 天的活动（例如，登录、发布、发送消息、搜索），但未触发任何虚假帐户检测器。考虑到帐户的年龄和活动，我们可以确信这些照片是真实的。这些图像的分辨率和质量差异很大。虽然这些图像中的大多数都是由单人组成的标准个人资料照片，但有些不包含人脸。相比之下，所有 AI 生成的图像（下文介绍）都包含一张脸。我们将在第 4 节中重新讨论真实图像和虚假图像之间的这种差异。  2.2. GAN 面孔  2 和 3 以 1024×1024 像素的分辨率和 ψ = 0.5 合成了彩色图像。[1] 对于 EG3D（高效几何感知 3D 生成对抗网络），即 StyleGAN 的所谓 3D 版本，我们以 512×512 的分辨率、ψ = 0.5 和随机头部姿势合成了 10,000 张图像。 我们从 generated.photos[2] 下载了总共 10,000 张分辨率为 1024 × 1024 像素的图像。这些 GAN 合成的图像通常会产生看起来更专业的头像，因为该网络是在摄影工作室拍摄的高质量图像数据集上进行训练的。  2.3. GAN 非人脸 总共下载了 5,000 张 StyleGAN 1 图像[3]，分为三个非人脸类别：卧室、汽车和猫（其他 StyleGAN 版本的存储库不提供除人脸之外的其他类别的图像）。这些图像的尺寸范围从 512 × 384（汽车）到 256 × 256（卧室和猫）。  2.4. 扩散面 我们从每个稳定扩散 [26] 版本（1、2）[4] 中生成了 9,000 张图像。与上述 GAN 人脸不同，文本到图像的扩散合成可以更好地控制人脸的外观。为了确保多样性，30 个人口统计数据中的每个人口统计数据都有 300 张人脸，提示为“一张{年轻、中年、老年} {黑人、东亚、西班牙裔、南亚、白人} {女人、男人} 的照片”。这些图像以 512 × 512 的分辨率合成。这个数据集经过精心挑选，以消除明显的合成失败，例如，人脸不可见。 另外 900 张图像是从最新版本的 Stable Diffusion (xl) 合成的。使用与之前相同的人口统计类别，为 30 个类别中的每个类别生成 30 张图像，每张的分辨率为 768 × 768。 我们从 DALL-E 2 [5] 生成了 9,000 张图像，其中 30 个人口统计组各有 300 张图像。这些图像以 512×512 像素的分辨率合成。 总共下载了 1,000 张 Midjourney[6] 图像，分辨率为 512 × 512。这些图像经过手动筛选，仅包含一张脸。  2.5. 扩散非面 我们从两个版本的 Stable Diffusion（1、2）中分别合成了 1,000 张非人脸图像。这些图像是使用随机字幕（由 ChatGPT 生成）生成的，并经过人工审核以删除任何包含人或人脸的图像。这些图像以 600 × 600 像素的分辨率合成。以 512 × 512 的分辨率合成了一组类似的 1,000 张 DALL-E 2 和 1,000 张 Midjourney 图像。  2.6. 训练和评估数据 上述列举的图像集分为训练和评估，如下所示。我们的模型（第 3 节中描述）在 30,000 张真实面孔和 30,000 张 AI 生成面孔的随机子集上进行训练。AI 生成面孔由 5,250 张 StyleGAN 1、5,250 张 StyleGAN 2、4,500 张 StyleGAN 3、3,750 张 Stable Diffusion 1、3,750 张 Stable Diffusion 2 和 7,500 张 DALL-E 2 图像的随机子集组成。 我们根据以下内容评估我们的模型：  • 来自训练中使用的相同合成引擎（StyleGAN 1、StyleGAN 2、StyleGAN 3、Stable Diffusion 1、Stable Diffusion 2 和 DALL-E 2）的一组 5,000 张面部图像。  • 一组 5,000 张未用于训练的合成引擎（Generated.photos、EG3D、Stable Diffusion xl 和 Midjourney）的面部图像。  • 来自五个合成引擎（StyleGAN 1、DALL-E 2、Stable Diffusion 1、Stable Diffusion 2 和 Midjourney）的一组 3,750 张非面部图像。  • 一组13,750张真实面孔。 该论文 。 可在 arxiv 上根据 CC 4.0 许可获取  [1] StyleGAN 参数 ψ（通常在 [0, 1] 范围内）控制用于生成图像的潜在空间表示中种子值的截断。 ψ 值越小，图像质量越好，但面部多样性越少。 ψ = 0.5 的中间值可生成相对无伪影的面部，同时允许合成面部中存在性别、年龄和种族的变化。  [2] https://generated.photos/faces  [3] https://github.com/NVlabs/stylegan)  [4] https://github.com/Stability-AI/StableDiffusion  [5] https://openai.com/dall-e-2  [6] https://www.midjourney.com

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

該音頻是用故事的原始語言製作的！

在野外寻找人工智能生成的人脸：数据集

About Author

註釋

標籤

这篇文章刊登在

Related Stories

如何将您的工作流程提高 10 倍：17 个必备应用程序

Floki 的 Valhalla 成为印度环斯里兰卡赛事联合赞助商

成功云迁移的完整指南：策略和最佳实践

使用这 18 种开发工具来提高你的工作效率 🚀🔥

如何将您的工作流程提高 10 倍：17 个必备应用程序

Floki 的 Valhalla 成为印度环斯里兰卡赛事联合赞助商

成功云迁移的完整指南：策略和最佳实践

使用这 18 种开发工具来提高你的工作效率 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps