paint-brush
Trouver des visages générés par l'IA dans la nature : résultatspar@botbeat
144 lectures

Trouver des visages générés par l'IA dans la nature : résultats

Trop long; Pour lire

L’IA peut créer de faux visages réalistes pour les escroqueries en ligne. Ce travail propose une méthode pour détecter les visages générés par l’IA dans les images.
featured image - Trouver des visages générés par l'IA dans la nature : résultats
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Auteurs:

(1) Gonzalo J. Aniano Porcile, LinkedIn ;

(2) Jack Gindi, LinkedIn ;

(3) Shivansh Mundra, LinkedIn ;

(4) James R. Verbus, LinkedIn ;

(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.

Tableau des liens

4. Résultats

Nos performances de base en matière de formation et d'évaluation sont présentées dans le tableau 2. L'évaluation est décomposée selon que les images d'évaluation contiennent ou non un visage (les images de formation contiennent uniquement des visages) et si les images ont été générées avec le même (dans le moteur) ou des moteurs de synthèse (hors moteur) différents de ceux utilisés en formation (voir section 2.6). Afin de fournir une comparaison directe du taux de vrais positifs[8] (TPR) pour la formation et l'évaluation, nous ajustons le seuil de classification final pour obtenir un taux de faux positifs[9] (FPR) de 0,5 %.


Avec un FPR fixe de 0,5%, les visages générés par l'IA sont correctement classés en formation et en évaluation à raison de 98%. Dans les différents moteurs de synthèse (StyleGAN 1,2,3, Stable Diffusion 1,2 et DALL-E 2) utilisés pour la formation, le TPR variait quelque peu, d'un minimum de 93,3 % pour Stable Diffusion 1 à un maximum de 99,5 % pour StyleGAN. 2 et 98,9 % pour StyleGAN1, 99,9 % pour StyleGAN3, 94,9 % pour Stable Diffusion 2 et 99,2 % pour DALL-E 2.


Pour les visages générés par des moteurs de synthèse non utilisés dans



Figure 3. Taux de vrais positifs (TPR) pour classer correctement un visage généré par l'IA (avec un FPR fixe de 0,5 %) en fonction de : (a) la résolution où le modèle est entraîné sur des images 512 × 512 et évalué par rapport à différentes résolutions (solides). bleu) et formés et évalués sur une résolution unique N × N (en pointillés rouges) ; et (b) qualité JPEG où le modèle est formé sur des images non compressées et une gamme d'images compressées JPEG et évalué sur des qualités JPEG comprises entre 20 (la plus basse) et 100 (la plus élevée).



formation (hors moteur), le TPR chute à 84,5 % pour le même FPR, montrant une généralisation hors domaine bonne mais pas parfaite. Parmi les différents moteurs de synthèse non utilisés en formation, le TPR variait considérablement, avec un minimum de 19,4 % pour Midjourney et un maximum de 99,5 % pour EG3D et 95,4 % pour les photos générées. Notre classificateur généralise bien dans certains cas et échoue dans d’autres. Cette limitation peut toutefois probablement être atténuée en intégrant ces images hors moteur dans la formation initiale.


Résultat particulièrement frappant : les non-visages – générés par les mêmes moteurs de synthèse que ceux utilisés dans la formation – sont tous incorrectement classés. Cela est très probablement dû au fait que certaines de nos images réelles contiennent des non-visages (voir Section 2.1), alors que toutes les images générées par l'IA contiennent des visages. Puisque nous nous intéressons uniquement à la détection des faux visages utilisés pour créer un compte, nous ne considérons pas cela comme une limitation majeure. Ce résultat suggère également que notre classificateur s'est accroché à une propriété spécifique d'un visage généré par l'IA et non à un artefact de bas niveau issu de la synthèse sous-jacente (par exemple, une empreinte de bruit [8]). Dans la section 4.1, nous fournissons des preuves supplémentaires pour étayer cette hypothèse.


Les résultats de base ci-dessus sont basés sur la formation et l'évaluation d'images à une résolution de 512 × 512 pixels. La figure 3 (a) (bleu uni) représente le TPR lorsque les images d'entraînement sont réduites à une résolution inférieure (256, 128, 64 et 32), puis redimensionnées jusqu'à 512 pour la classification. Avec le même FPR de 0,5 %, le TPR pour la classification d'un visage généré par l'IA chute assez rapidement par rapport à une référence de 98,0 %.


Le taux de vrais positifs, cependant, s'améliore considérablement lorsque le modèle est entraîné sur des images à une résolution de N × N (N = 32, 64, 128 ou 256), puis évalué par rapport au même TPR observé lors de l'entraînement, Figure 3 (a ) (pointillés rouges). Comme auparavant, le taux de faux positifs est fixé à 0,5 %. On voit ici que le TPR à une résolution de 128 × 128 reste relativement élevé (91,9 %) et ne se dégrade qu'à la résolution la plus basse de 32 × 32 (44,1 %). La capacité de détecter les visages générés par l’IA, même à des résolutions relativement faibles, suggère que notre modèle ne s’est pas accroché à un artefact de bas niveau qui ne survivrait pas à ce niveau de sous-échantillonnage.


La figure 3 (b) montre le TPR du classificateur, formé sur des images PNG et JPEG non compressées de qualité variable, évaluées par rapport à des images sur une gamme de qualités JPEG (allant de la qualité la plus élevée de 100 à la qualité la plus basse de 20). Nous voyons ici que le TPR pour identifier un visage généré par l'IA (le FPR est de 0,5 %) se dégrade lentement avec un TPR de 94,3 % à une qualité de 80 et un TPR de 88,0 % à une qualité de 60. Encore une fois, la capacité de détecter les visages générés par l'IA dans la présence d'artefacts de compression JPEG suggère que notre modèle ne s'est pas accroché à un artefact de bas niveau.

4.1. Explicabilité

Comme le montre la section 4, notre classificateur est hautement capable de distinguer les visages d'IA générés à partir d'une gamme de moteurs de synthèse différents. Ce classificateur, cependant, est limité aux seuls visages, tableau 2. Autrement dit, lorsqu'il est présenté avec des images autres que des visages provenant des mêmes moteurs de synthèse que ceux utilisés dans la formation, le classificateur échoue complètement à les classer comme générés par l'IA.


Nous postulons que notre classificateur a peut-être appris un artefact au niveau sémantique. Cette affirmation est en partie étayée par le fait que notre classificateur reste très précis même à des résolutions aussi basses que 128 × 128 pixels, Figure 3(a), et reste raisonnablement précis même face à une compression JPEG assez agressive, Figure 3(b). . Nous fournissons ici des preuves supplémentaires pour étayer cette affirmation selon laquelle nous avons appris un artefact au niveau structurel ou sémantique.


Il est bien établi que si la reconnaissance d'objets à usage général dans le système visuel humain est très robuste à l'orientation, à la pose et à la distorsion de la perspective des objets, la reconnaissance et le traitement des visages sont moins robustes, même à une simple inversion (27). Cet effet est délicieusement illustré dans l’illusion classique de Margaret Thatcher [31]. Les faces de la rangée supérieure de la figure 4 sont des versions inversées de celles de la rangée inférieure. Dans la version de droite, les yeux et la bouche sont inversés par rapport au visage. Ce cocktail de traits grotesques est évident dans le visage droit mais pas dans le visage inversé.


Nous nous demandions si notre classificateur aurait du mal à classer



Figure 4. L'illusion de Margaret Thatcher [31] : les visages de la rangée du haut sont des versions inversées de ceux de la rangée du bas. L’inversion des yeux et de la bouche en bas à droite est évidente lorsque le visage est droit, mais pas lorsqu’il est inversé. (Crédit : Rob Bogaerts/Anefo https://commons.wikimedia.org/w/index.php? curid=79649613))



faces verticalement inversées. Les mêmes 10 000 images de validation (section 2.6) ont été inversées et reclassées. Avec le même FPR fixe de 0,5 %, le TPR a chuté de 20 points de pourcentage, passant de 98,0 % à 77,7 %.


En comparaison, le retournement des images de validation autour de l'axe vertical uniquement (c'est-à-dire un retournement gauche-droite) ne produit aucun changement dans le TPR de 98,0 % avec le même FPR de 0,5 %. Ces deux résultats, combinés à la robustesse de la résolution et de la qualité de compression, suggèrent que notre modèle ne s'est pas accroché à un artefact de bas niveau, mais a peut-être découvert une propriété structurelle ou sémantique qui distingue les visages générés par l'IA des visages réels.


Nous explorons plus en détail la nature de notre classificateur en utilisant la méthode des gradients intégrés [28]. Cette méthode attribue les prédictions faites par un réseau profond à ses entités d'entrée. Étant donné que cette méthode peut être appliquée sans aucune modification au modèle entraîné, elle nous permet de calculer la pertinence de chaque pixel de l'image d'entrée par rapport à la décision du modèle.


La figure 5 (a) montre l'ampleur non signée des dégradés intégrés normalisés (dans la plage [0, 1]) moyennés sur 100 images StyleGAN 2 (parce que les visages générés par StyleGAN sont tous alignés, le dégradé moyen est cohérent avec les traits du visage à travers toutes les images). Les figures 5 (b) à (e) sont des images représentatives et leurs gradients intégrés normalisés pour une image générée par DALL-2, Midjourney, Stable Diffusion 1 et Stable Diffusion 2. Dans tous les cas, nous voyons que les pixels les plus pertinents , correspondant à des gradients plus importants, se concentrent principalement autour de la région du visage et d’autres zones de la peau.

4.2. Comparaison

Parce qu’il s’est concentré spécifiquement sur la détection des visages générés par le GAN, le travail de [23] est le plus directement lié au nôtre. Dans ce travail, les auteurs montrent qu'un modèle linéaire de faible dimension capture l'alignement facial commun des visages générés par StyleGAN. Évalué sur 3 000 visages StyleGAN, leur modèle classe correctement 99,5 % des visages GAN avec 1 % de visages réels incorrectement classés comme IA. En comparaison, nous obtenons un TPR similaire, mais avec un FPR inférieur à 0,5 %.


Cependant, contrairement à notre approche, qui se généralise à d'autres visages GAN comme generate.photos, le TPR pour ce travail antérieur tombe à 86,0 % (avec le même FPR de 1 %). De plus, ces travaux antérieurs ne parviennent pas à détecter les visages basés sur la diffusion, car ces visages ne contiennent tout simplement pas le même artefact d'alignement que les visages StyleGAN. En comparaison, notre technique se généralise aux visages générés par GAN et par diffusion et aux moteurs de synthèse non vus dans la formation.


Nous avons également évalué un modèle récent de pointe qui exploite la présence d'artefacts de Fourier dans les images générées par l'IA [8]. Sur notre ensemble de données d'évaluation des visages réels et générés par l'IA, ce modèle classe correctement seulement 23,8 % des visages générés par l'IA au même FPR de 0,5 %. Ce TPR est considérablement inférieur au TPR de notre modèle de 98,0 % et également inférieur au TPR de 90 % rapporté dans [8]. Nous émettons l’hypothèse que cet écart est dû aux images réelles plus diverses et plus difficiles de notre ensemble de données dans la nature.


Cet article est disponible sur arxiv sous licence CC 4.0.


[8] Le taux de vrais positifs (TPR) est la fraction de photos générées par l'IA qui sont correctement classées.


[9] Le taux de faux positifs (FPR) est la fraction de photos réelles mal classées.