Auteurs:
(1) Gonzalo J. Aniano Porcile, LinkedIn ;
(2) Jack Gindi, LinkedIn ;
(3) Shivansh Mundra, LinkedIn ;
(4) James R. Verbus, LinkedIn ;
(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.
Notre formation et notre évaluation exploitent 18 ensembles de données comprenant 120 000 photos de profil LinkedIn réelles et 105 900 visages générés par l'IA couvrant cinq GAN différents et cinq moteurs de synthèse de diffusion différents. Les images générées par l’IA se composent de deux catégories principales : celles avec un visage et celles sans visage. Les images en couleurs réelles et synthétisées (RVB) sont redimensionnées de leur résolution d'origine à 512 × 512 pixels. Le tableau 1 présente un compte rendu de ces images, et la figure 2 présente des exemples représentatifs de chacune des catégories générées par l'IA, comme décrit ci-dessous.
Les 120 000 photos réelles ont été échantillonnées auprès d'utilisateurs de LinkedIn avec des photos de profil accessibles au public téléchargées entre le 1er janvier 2019 et le 1er décembre 2022. Ces comptes ont montré une activité sur la plateforme pendant au moins 30 jours (par exemple, connectés, publiés, envoyés des messages, recherchés). ) sans déclencher de détecteurs de faux comptes. Compte tenu de l’âge et de l’activité des comptes, nous pouvons être sûrs que ces photos sont réelles. Ces images étaient de résolution et de qualité très variables. Bien que la plupart de ces images soient des photos de profil standard représentant une seule personne, certaines ne contiennent pas de visage. En revanche, toutes les images générées par l’IA (décrites ci-dessous) sont constituées d’un visage. Nous reviendrons sur cette différence entre images réelles et fausses dans la section 4.
2 et 3, les images couleur ont été synthétisées à une résolution de 1024 × 1024 pixels et avec ψ = 0,5. [1] Pour EG3D (Efficient Geometry-aware 3D Generative Adversarial Networks), la version dite 3D de StyleGAN, nous avons synthétisé 10 000 images à une résolution de 512 × 512, avec ψ = 0,5 et avec des poses de tête aléatoires.
Au total, 10 000 images d’une résolution de 1 024 × 1 024 pixels ont été téléchargées à partir de generate.photos[2]. Ces images synthétisées par GAN produisent généralement des photos de tête d'aspect plus professionnel, car le réseau est formé sur un ensemble de données d'images de haute qualité enregistrées dans un studio photographique.
Au total, 5 000 images StyleGAN 1 ont été téléchargées[3] pour chacune des trois catégories autres que les visages : chambres, voitures et chats (les référentiels des autres versions de StyleGAN ne fournissent pas d'images pour les catégories autres que les visages). La taille de ces images variait de 512 × 384 (voitures) à 256 × 256 (chambres et chats).
Nous avons généré 9 000 images à partir de chaque version de Stable Diffusion [26] (1, 2) [4]. Contrairement aux visages GAN décrits ci-dessus, la synthèse de diffusion texte-image offre plus de contrôle sur l'apparence des visages. Pour garantir la diversité, 300 visages pour chacun des 30 groupes démographiques avec les invites « une photo d'un {jeune, d'âge moyen, plus âgé} {noir, asiatique de l'est, hispanique, sud-asiatique, blanc} {femme, homme} ». Ces images ont été synthétisées à une résolution de 512 × 512. Cet ensemble de données a été organisé pour supprimer les échecs de synthèse évidents dans lesquels, par exemple, le visage n'était pas visible.
900 images supplémentaires ont été synthétisées à partir de la version la plus récente de Stable Diffusion (xl). En utilisant les mêmes catégories démographiques qu’auparavant, 30 images ont été générées pour chacune des 30 catégories, chacune avec une résolution de 768 × 768.
Nous avons généré 9 000 images à partir de DALL-E 2 [5], composées de 300 images pour chacun des 30 groupes démographiques. Ces images ont été synthétisées à une résolution de 512×512 pixels.
Au total, 1 000 images Midjourney[6] ont été téléchargées à une résolution de 512 × 512. Ces images ont été organisées manuellement pour ne comporter qu'un seul visage.
Nous avons synthétisé 1 000 images non faciales de chacune des deux versions de Stable Diffusion (1, 2). Ces images ont été générées à l'aide de légendes aléatoires (générées par ChatGPT) et ont été examinées manuellement pour supprimer toute image contenant une personne ou un visage. Ces images ont été synthétisées à une résolution de 600 × 600 pixels. Un ensemble similaire de 1 000 images DALL-E 2 et 1 000 Midjourney a été synthétisé à une résolution de 512 × 512.
Les ensembles d'images énumérés ci-dessus sont divisés en formation et évaluation comme suit. Notre modèle (décrit dans la section 3) est formé sur un sous-ensemble aléatoire de 30 000 visages réels et 30 000 visages générés par l'IA. Les visages générés par l'IA sont composés d'un sous-ensemble aléatoire de 5 250 images StyleGAN 1, 5 250 StyleGAN 2, 4 500 StyleGAN 3, 3 750 Stable Diffusion 1, 3 750 Stable Diffusion 2 et 7 500 DALL-E 2.
Nous évaluons notre modèle par rapport aux éléments suivants :
• Un ensemble de 5 000 images de visage provenant des mêmes moteurs de synthèse utilisés dans la formation (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 et DALL-E 2).
• Un ensemble de 5 000 images de visages issues de moteurs de synthèse non utilisés en formation (Generated.photos, EG3D, Stable Diffusion xl et Midjourney).
• Un ensemble de 3 750 images non faciales provenant de chacun des cinq moteurs de synthèse (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 et Midjourney).
• Un ensemble de 13 750 visages réels.
Cet article est disponible sur arxiv sous licence CC 4.0.
[1] Le paramètre StyleGAN ψ (généralement compris dans la plage [0, 1]) contrôle la troncature des valeurs de départ dans la représentation de l'espace latent utilisée pour générer une image. Des valeurs plus petites de ψ offrent une meilleure qualité d’image mais réduisent la variété du visage. Une valeur moyenne de ψ = 0,5 produit des visages relativement exempts d'artefacts, tout en permettant une variation du sexe, de l'âge et de l'origine ethnique du visage synthétisé.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https : // github . com / Stabilité - IA / StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com