Auteurs:  (1) Gonzalo J. Aniano Porcile, LinkedIn ;  (2) Jack Gindi, LinkedIn ;  (3) Shivansh Mundra, LinkedIn ;  (4) James R. Verbus, LinkedIn ;  (5) Hany Farid, LinkedIn et Université de Californie, Berkeley.  Tableau des liens   Résumé et introduction   Ensembles de données   Modèle   Résultats   Discussion, remerciements et références  2. Ensembles de données  Notre formation et notre évaluation exploitent 18 ensembles de données comprenant 120 000 photos de profil LinkedIn réelles et 105 900 visages générés par l'IA couvrant cinq GAN différents et cinq moteurs de synthèse de diffusion différents. Les images générées par l’IA se composent de deux catégories principales : celles avec un visage et celles sans visage. Les images en couleurs réelles et synthétisées (RVB) sont redimensionnées de leur résolution d'origine à 512 × 512 pixels. Le tableau 1 présente un compte rendu de ces images, et la figure 2 présente des exemples représentatifs de chacune des catégories générées par l'IA, comme décrit ci-dessous.  2.1. De vrais visages  Les 120 000 photos réelles ont été échantillonnées auprès d'utilisateurs de LinkedIn avec des photos de profil accessibles au public téléchargées entre le 1er janvier 2019 et le 1er décembre 2022. Ces comptes ont montré une activité sur la plateforme pendant au moins 30 jours (par exemple, connectés, publiés, envoyés des messages, recherchés). ) sans déclencher de détecteurs de faux comptes. Compte tenu de l’âge et de l’activité des comptes, nous pouvons être sûrs que ces photos sont réelles. Ces images étaient de résolution et de qualité très variables. Bien que la plupart de ces images soient des photos de profil standard représentant une seule personne, certaines ne contiennent pas de visage. En revanche, toutes les images générées par l’IA (décrites ci-dessous) sont constituées d’un visage. Nous reviendrons sur cette différence entre images réelles et fausses dans la section 4.  2.2. Visages du GAN   2 et 3, les images couleur ont été synthétisées à une résolution de 1024 × 1024 pixels et avec ψ = 0,5. [1] Pour EG3D (Efficient Geometry-aware 3D Generative Adversarial Networks), la version dite 3D de StyleGAN, nous avons synthétisé 10 000 images à une résolution de 512 × 512, avec ψ = 0,5 et avec des poses de tête aléatoires.  Au total, 10 000 images d’une résolution de 1 024 × 1 024 pixels ont été téléchargées à partir de generate.photos[2]. Ces images synthétisées par GAN produisent généralement des photos de tête d'aspect plus professionnel, car le réseau est formé sur un ensemble de données d'images de haute qualité enregistrées dans un studio photographique.  2.3. GAN Non-Visages  Au total, 5 000 images StyleGAN 1 ont été téléchargées[3] pour chacune des trois catégories autres que les visages : chambres, voitures et chats (les référentiels des autres versions de StyleGAN ne fournissent pas d'images pour les catégories autres que les visages). La taille de ces images variait de 512 × 384 (voitures) à 256 × 256 (chambres et chats).  2.4. Visages de diffusion  Nous avons généré 9 000 images à partir de chaque version de Stable Diffusion [26] (1, 2) [4]. Contrairement aux visages GAN décrits ci-dessus, la synthèse de diffusion texte-image offre plus de contrôle sur l'apparence des visages. Pour garantir la diversité, 300 visages pour chacun des 30 groupes démographiques avec les invites « une photo d'un {jeune, d'âge moyen, plus âgé} {noir, asiatique de l'est, hispanique, sud-asiatique, blanc} {femme, homme} ». Ces images ont été synthétisées à une résolution de 512 × 512. Cet ensemble de données a été organisé pour supprimer les échecs de synthèse évidents dans lesquels, par exemple, le visage n'était pas visible.  900 images supplémentaires ont été synthétisées à partir de la version la plus récente de Stable Diffusion (xl). En utilisant les mêmes catégories démographiques qu’auparavant, 30 images ont été générées pour chacune des 30 catégories, chacune avec une résolution de 768 × 768.  Nous avons généré 9 000 images à partir de DALL-E 2 [5], composées de 300 images pour chacun des 30 groupes démographiques. Ces images ont été synthétisées à une résolution de 512×512 pixels.  Au total, 1 000 images Midjourney[6] ont été téléchargées à une résolution de 512 × 512. Ces images ont été organisées manuellement pour ne comporter qu'un seul visage.  2.5. Diffusion Non-Visages  Nous avons synthétisé 1 000 images non faciales de chacune des deux versions de Stable Diffusion (1, 2). Ces images ont été générées à l'aide de légendes aléatoires (générées par ChatGPT) et ont été examinées manuellement pour supprimer toute image contenant une personne ou un visage. Ces images ont été synthétisées à une résolution de 600 × 600 pixels. Un ensemble similaire de 1 000 images DALL-E 2 et 1 000 Midjourney a été synthétisé à une résolution de 512 × 512.  2.6. Données de formation et d’évaluation  Les ensembles d'images énumérés ci-dessus sont divisés en formation et évaluation comme suit. Notre modèle (décrit dans la section 3) est formé sur un sous-ensemble aléatoire de 30 000 visages réels et 30 000 visages générés par l'IA. Les visages générés par l'IA sont composés d'un sous-ensemble aléatoire de 5 250 images StyleGAN 1, 5 250 StyleGAN 2, 4 500 StyleGAN 3, 3 750 Stable Diffusion 1, 3 750 Stable Diffusion 2 et 7 500 DALL-E 2.  Nous évaluons notre modèle par rapport aux éléments suivants :  • Un ensemble de 5 000 images de visage provenant des mêmes moteurs de synthèse utilisés dans la formation (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 et DALL-E 2).  • Un ensemble de 5 000 images de visages issues de moteurs de synthèse non utilisés en formation (Generated.photos, EG3D, Stable Diffusion xl et Midjourney).  • Un ensemble de 3 750 images non faciales provenant de chacun des cinq moteurs de synthèse (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 et Midjourney).  • Un ensemble de 13 750 visages réels.  Cet article est   sous licence CC 4.0. disponible sur arxiv  [1] Le paramètre StyleGAN ψ (généralement compris dans la plage [0, 1]) contrôle la troncature des valeurs de départ dans la représentation de l'espace latent utilisée pour générer une image. Des valeurs plus petites de ψ offrent une meilleure qualité d’image mais réduisent la variété du visage. Une valeur moyenne de ψ = 0,5 produit des visages relativement exempts d'artefacts, tout en permettant une variation du sexe, de l'âge et de l'origine ethnique du visage synthétisé.  [2] https://generated.photos/faces  [3] https://github.com/NVlabs/stylegan)  [4] https : // github . com / Stabilité - IA / StableDiffusion  [5] https://openai.com/dall-e-2  [6] https://www.midjourney.com

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Cet audio est produit dans la langue originale de l'histoire !

Trouver des visages générés par l'IA dans la nature : ensembles de données

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Télégramme : le pont de Crypto Island vers le continent

Comment améliorer votre flux de travail par 10 : 17 applications essentielles

State of the Noonion: Green Clock Strikes Noon

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Télégramme : le pont de Crypto Island vers le continent

Comment améliorer votre flux de travail par 10 : 17 applications essentielles

State of the Noonion: Green Clock Strikes Noon

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps