Auteurs:
(1) Gonzalo J. Aniano Porcile, LinkedIn ;
(2) Jack Gindi, LinkedIn ;
(3) Shivansh Mundra, LinkedIn ;
(4) James R. Verbus, LinkedIn ;
(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.
La génération d’images basée sur l’IA a continué de s’améliorer rapidement, produisant des images de plus en plus réalistes avec moins de défauts visuels évidents. Les images générées par l’IA sont utilisées pour créer de faux profils en ligne qui sont à leur tour utilisés pour des campagnes de spam, de fraude et de désinformation. Alors que le problème général de la détection de tout type de contenu manipulé ou synthétisé fait l’objet d’une attention croissante, nous nous concentrons ici sur une tâche plus restreinte consistant à distinguer un visage réel d’un visage généré par l’IA. Ceci est particulièrement applicable lorsqu’il s’agit de comptes en ligne non authentiques avec une fausse photo de profil d’utilisateur. Nous montrons qu'en se concentrant uniquement sur les visages, un artefact plus résilient et à usage général peut être détecté, permettant la détection de visages générés par l'IA à partir d'une variété de moteurs de synthèse basés sur le GAN et la diffusion, et à travers des résolutions d'image (aussi faibles que les visages). comme 128 × 128 pixels) et qualités.
Les trois dernières décennies ont vu des progrès remarquables dans la modélisation statistique des images naturelles. Le modèle spectral de puissance le plus simple [20] capture la chute de l'amplitude de fréquence 1/ω typique des images naturelles, Figure 1(a). Étant donné que ce modèle n’intègre aucune information sur les phases, il est incapable de capturer des informations structurelles détaillées. Au début des années 2000, de nouveaux modèles statistiques étaient capables de capturer les statistiques naturelles de l'ampleur et de (certaines) phases [25], conduisant à des percées dans la modélisation des modèles de texture de base, Figure 1(b).
Bien qu'ils soient capables de capturer des motifs répétitifs, ces modèles ne sont pas capables de capturer les propriétés géométriques des objets, des visages ou des scènes complexes. À partir de 2017, et grâce à de vastes ensembles de données d'images naturelles, aux progrès de l'apprentissage profond et à de puissants clusters GPU, les modèles génératifs ont commencé à capturer les propriétés détaillées des visages humains et des objets [16, 18]. Formés sur un grand nombre d'images d'une même catégorie (visages, voitures, chats, etc.), ces réseaux contradictoires génératifs (GAN) capturent des propriétés très détaillées.
de, par exemple, des visages, figure 1(c), mais sont limités à une seule catégorie. Plus récemment, des modèles basés sur la diffusion [2,26] ont combiné des modèles d'images génératifs avec des invites linguistiques permettant la synthèse d'images à partir d'invites textuelles descriptives comme « un apiculteur peignant un autoportrait », Figure 1(d).
Traditionnellement, le développement de modèles d'images génératifs était motivé par deux objectifs principaux : (1) comprendre les propriétés statistiques fondamentales des images naturelles ; et (2) utiliser les images synthétisées résultantes pour tout, du rendu infographique à la psychophysique humaine et à l'augmentation des données dans les tâches classiques de vision par ordinateur. Aujourd’hui, cependant, l’IA générative a découvert des cas d’utilisation plus néfastes, allant du spam à la fraude, en passant par un carburant supplémentaire pour les campagnes de désinformation.
La détection d'images manipulées ou synthétisées est particulièrement difficile lorsque l'on travaille sur des réseaux à grande échelle comptant des centaines de millions d'utilisateurs. Ce défi est encore plus important lorsque l'utilisateur moyen a du mal à distinguer un vrai d'un faux visage [24]. Parce que nous sommes préoccupés par l’utilisation de l’IA générative pour créer de faux comptes d’utilisateurs en ligne, nous cherchons à développer des techniques rapides et fiables capables de distinguer les visages réels des visages générés par l’IA. Nous plaçons ensuite notre travail dans le contexte de techniques connexes.
Parce que nous nous concentrerons spécifiquement sur les visages générés par l’IA, nous passerons en revue les travaux connexes également axés sur la distinction entre les vrais et les faux visages, ou applicables à celle-ci. Il existe deux grandes catégories d'approches pour détecter le contenu généré par l'IA [10].
Dans la première approche, basée sur des hypothèses, des artefacts spécifiques dans les visages générés par l'IA sont exploités, tels que des incohérences dans la symétrie faciale bilatérale sous la forme de reflets cornéens [13] et de forme de pupille [15], ou des incohérences dans la pose de la tête et la disposition spatiale. des traits du visage (yeux, bout du nez, coins de la bouche, menton, etc.) [23, 33, 34]. L’avantage de ces approches est qu’elles apprennent des anomalies explicites au niveau sémantique. L’inconvénient est qu’au fil du temps, les moteurs de synthèse semblent corriger – implicitement ou explicitement – ces artefacts. D'autres artefacts non spécifiques au visage incluent des anomalies de fréquence spatiale ou de bruit [5,8,12,21,35], mais ces artefacts ont tendance à être vulnérables à de simples attaques de blanchiment (par exemple, transcodage, bruit additif, redimensionnement d'image).
Dans la seconde approche, basée sur les données, l'apprentissage automatique est utilisé pour apprendre à distinguer les images réelles des images générées par l'IA [11, 29, 32]. Ces modèles fonctionnent souvent bien lors de l'analyse d'images cohérentes avec leur formation, mais ont ensuite du mal avec les images hors domaine et/ou sont vulnérables aux attaques de blanchiment car le modèle se verrouille sur des artefacts de bas niveau [9].
Nous essayons de tirer le meilleur parti de ces deux approches. En entraînant notre modèle sur une gamme de moteurs de synthèse (GAN et diffusion), nous cherchons à éviter de nous accrocher à un artefact spécifique de bas niveau qui ne se généralise pas ou peut être vulnérable à de simples attaques de blanchiment. En nous concentrant uniquement sur la détection des visages générés par l'IA (et non sur des images synthétiques arbitraires), nous montrons que notre modèle semble avoir capturé un artefact de niveau sémantique distinct des visages générés par l'IA, ce qui est hautement souhaitable pour notre application spécifique de recherche d'utilisateurs potentiellement frauduleux. comptes. Nous montrons également que notre modèle est résilient à la détection de visages générés par l’IA, jamais vus auparavant lors de l’entraînement, et qu’il est résilient sur une large gamme de résolutions et de qualités d’image.
Cet article est disponible sur arxiv sous licence CC 4.0.