paint-brush
Trouver des visages générés par l'IA dans la nature : ensembles de donnéesby@botbeat
130

Trouver des visages générés par l'IA dans la nature : ensembles de données

L’IA peut créer de faux visages réalistes pour les escroqueries en ligne. Ce travail propose une méthode pour détecter les visages générés par l’IA dans les images.
featured image - Trouver des visages générés par l'IA dans la nature : ensembles de données
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Auteurs:

(1) Gonzalo J. Aniano Porcile, LinkedIn ;

(2) Jack Gindi, LinkedIn ;

(3) Shivansh Mundra, LinkedIn ;

(4) James R. Verbus, LinkedIn ;

(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.

Tableau des liens

2. Ensembles de données

Notre formation et notre évaluation exploitent 18 ensembles de données comprenant 120 000 photos de profil LinkedIn réelles et 105 900 visages générés par l'IA couvrant cinq GAN différents et cinq moteurs de synthèse de diffusion différents. Les images générées par l’IA se composent de deux catégories principales : celles avec un visage et celles sans visage. Les images en couleurs réelles et synthétisées (RVB) sont redimensionnées de leur résolution d'origine à 512 × 512 pixels. Le tableau 1 présente un compte rendu de ces images, et la figure 2 présente des exemples représentatifs de chacune des catégories générées par l'IA, comme décrit ci-dessous.

2.1. De vrais visages

Les 120 000 photos réelles ont été échantillonnées auprès d'utilisateurs de LinkedIn avec des photos de profil accessibles au public téléchargées entre le 1er janvier 2019 et le 1er décembre 2022. Ces comptes ont montré une activité sur la plateforme pendant au moins 30 jours (par exemple, connectés, publiés, envoyés des messages, recherchés). ) sans déclencher de détecteurs de faux comptes. Compte tenu de l’âge et de l’activité des comptes, nous pouvons être sûrs que ces photos sont réelles. Ces images étaient de résolution et de qualité très variables. Bien que la plupart de ces images soient des photos de profil standard représentant une seule personne, certaines ne contiennent pas de visage. En revanche, toutes les images générées par l’IA (décrites ci-dessous) sont constituées d’un visage. Nous reviendrons sur cette différence entre images réelles et fausses dans la section 4.

2.2. Visages du GAN


Figure 2. Exemples représentatifs d'images générées par l'IA utilisées dans notre formation et notre évaluation (voir également le tableau 1). Certains moteurs de synthèse ont été utilisés pour générer uniquement des visages et d'autres ont été utilisés pour synthétiser à la fois des visages et des non-visages. Afin de respecter la vie privée des utilisateurs, nous ne montrons pas d'exemples de photos réelles.



2 et 3, les images couleur ont été synthétisées à une résolution de 1024 × 1024 pixels et avec ψ = 0,5. [1] Pour EG3D (Efficient Geometry-aware 3D Generative Adversarial Networks), la version dite 3D de StyleGAN, nous avons synthétisé 10 000 images à une résolution de 512 × 512, avec ψ = 0,5 et avec des poses de tête aléatoires.


Au total, 10 000 images d’une résolution de 1 024 × 1 024 pixels ont été téléchargées à partir de generate.photos[2]. Ces images synthétisées par GAN produisent généralement des photos de tête d'aspect plus professionnel, car le réseau est formé sur un ensemble de données d'images de haute qualité enregistrées dans un studio photographique.

2.3. GAN Non-Visages

Au total, 5 000 images StyleGAN 1 ont été téléchargées[3] pour chacune des trois catégories autres que les visages : chambres, voitures et chats (les référentiels des autres versions de StyleGAN ne fournissent pas d'images pour les catégories autres que les visages). La taille de ces images variait de 512 × 384 (voitures) à 256 × 256 (chambres et chats).

2.4. Visages de diffusion

Nous avons généré 9 000 images à partir de chaque version de Stable Diffusion [26] (1, 2) [4]. Contrairement aux visages GAN décrits ci-dessus, la synthèse de diffusion texte-image offre plus de contrôle sur l'apparence des visages. Pour garantir la diversité, 300 visages pour chacun des 30 groupes démographiques avec les invites « une photo d'un {jeune, d'âge moyen, plus âgé} {noir, asiatique de l'est, hispanique, sud-asiatique, blanc} {femme, homme} ». Ces images ont été synthétisées à une résolution de 512 × 512. Cet ensemble de données a été organisé pour supprimer les échecs de synthèse évidents dans lesquels, par exemple, le visage n'était pas visible.


900 images supplémentaires ont été synthétisées à partir de la version la plus récente de Stable Diffusion (xl). En utilisant les mêmes catégories démographiques qu’auparavant, 30 images ont été générées pour chacune des 30 catégories, chacune avec une résolution de 768 × 768.


Nous avons généré 9 000 images à partir de DALL-E 2 [5], composées de 300 images pour chacun des 30 groupes démographiques. Ces images ont été synthétisées à une résolution de 512×512 pixels.


Au total, 1 000 images Midjourney[6] ont été téléchargées à une résolution de 512 × 512. Ces images ont été organisées manuellement pour ne comporter qu'un seul visage.

2.5. Diffusion Non-Visages

Nous avons synthétisé 1 000 images non faciales de chacune des deux versions de Stable Diffusion (1, 2). Ces images ont été générées à l'aide de légendes aléatoires (générées par ChatGPT) et ont été examinées manuellement pour supprimer toute image contenant une personne ou un visage. Ces images ont été synthétisées à une résolution de 600 × 600 pixels. Un ensemble similaire de 1 000 images DALL-E 2 et 1 000 Midjourney a été synthétisé à une résolution de 512 × 512.

2.6. Données de formation et d’évaluation

Les ensembles d'images énumérés ci-dessus sont divisés en formation et évaluation comme suit. Notre modèle (décrit dans la section 3) est formé sur un sous-ensemble aléatoire de 30 000 visages réels et 30 000 visages générés par l'IA. Les visages générés par l'IA sont composés d'un sous-ensemble aléatoire de 5 250 images StyleGAN 1, 5 250 StyleGAN 2, 4 500 StyleGAN 3, 3 750 Stable Diffusion 1, 3 750 Stable Diffusion 2 et 7 500 DALL-E 2.


Nous évaluons notre modèle par rapport aux éléments suivants :


• Un ensemble de 5 000 images de visage provenant des mêmes moteurs de synthèse utilisés dans la formation (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 et DALL-E 2).


• Un ensemble de 5 000 images de visages issues de moteurs de synthèse non utilisés en formation (Generated.photos, EG3D, Stable Diffusion xl et Midjourney).


• Un ensemble de 3 750 images non faciales provenant de chacun des cinq moteurs de synthèse (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 et Midjourney).


• Un ensemble de 13 750 visages réels.


Cet article est disponible sur arxiv sous licence CC 4.0.


[1] Le paramètre StyleGAN ψ (généralement compris dans la plage [0, 1]) contrôle la troncature des valeurs de départ dans la représentation de l'espace latent utilisée pour générer une image. Des valeurs plus petites de ψ offrent une meilleure qualité d’image mais réduisent la variété du visage. Une valeur moyenne de ψ = 0,5 produit des visages relativement exempts d'artefacts, tout en permettant une variation du sexe, de l'âge et de l'origine ethnique du visage synthétisé.


[2] https://generated.photos/faces


[3] https://github.com/NVlabs/stylegan)


[4] https : // github . com / Stabilité - IA / StableDiffusion


[5] https://openai.com/dall-e-2


[6] https://www.midjourney.com