Auteurs:
(1) Gonzalo J. Aniano Porcile, LinkedIn ;
(2) Jack Gindi, LinkedIn ;
(3) Shivansh Mundra, LinkedIn ;
(4) James R. Verbus, LinkedIn ;
(5) Hany Farid, LinkedIn et Université de Californie, Berkeley.
Nous entraînons un modèle pour distinguer les visages réels des visages générés par l'IA. Le modèle sous-jacent est le réseau neuronal convolutionnel EfficientNet-B1 [7] [30]. Nous avons constaté que cette architecture offre de meilleures performances par rapport aux autres architectures de pointe (Swin-T [22], Resnet50 [14], XceptionNet [7]). Le réseau EfficientNet-B1 possède 7,8 millions de paramètres internes qui ont été pré-entraînés sur l'ensemble de données d'image ImageNet1K [30].
Notre pipeline se compose de trois étapes : (1) une étape de prétraitement de l'image ; (2) une étape d'intégration d'image ; et (3) une étape de notation. Le modèle prend en entrée une image couleur et génère un score numérique compris dans la plage [0, 1]. Des scores proches de 0 indiquent que l’image est probablement réelle, et des scores proches de 1 indiquent que l’image est probablement générée par l’IA.
L'étape de prétraitement de l'image redimensionne l'image d'entrée à une résolution de 512 × 512 pixels. Cette image couleur redimensionnée est ensuite transmise à une couche d'apprentissage de transfert EfficientNet-B1. Au cours de l'étape de notation, la sortie de la couche d'apprentissage par transfert est transmise à deux couches entièrement connectées, chacune de taille 2 048, avec une fonction d'activation ReLU, une couche d'abandon avec une probabilité d'abandon de 0,8 et une couche de notation finale avec une activation sigmoïde. Seules les couches de notation – avec 6,8 millions de paramètres pouvant être entraînés – sont réglées. Les poids pouvant être entraînés sont optimisés à l'aide de l'algorithme AdaGrad avec un mini-lot de taille 32, un taux d'apprentissage de 0,0001 et entraînés jusqu'à 10 000 étapes. Un cluster avec 60 GPU NVIDIA A100 a été utilisé pour la formation du modèle.
Cet article est disponible sur arxiv sous licence CC 4.0.
[7] Nous décrivons une ancienne version du modèle EfficientNet que nous avons précédemment opérationnalisé sur LinkedIn et qui a depuis été remplacée par un nouveau modèle. Nous reconnaissons que ce modèle n'est pas le plus récent, mais nous ne pouvons rapporter ces résultats que maintenant puisque le modèle n'est plus utilisé.