Auteurs:  (1) Gonzalo J. Aniano Porcile, LinkedIn ;  (2) Jack Gindi, LinkedIn ;  (3) Shivansh Mundra, LinkedIn ;  (4) James R. Verbus, LinkedIn ;  (5) Hany Farid, LinkedIn et Université de Californie, Berkeley.  Tableau des liens   Résumé et introduction   Ensembles de données   Modèle   Résultats   Discussion, remerciements et références  3. Modèle  Nous entraînons un modèle pour distinguer les visages réels des visages générés par l'IA. Le modèle sous-jacent est le réseau neuronal convolutionnel EfficientNet-B1 [7] [30]. Nous avons constaté que cette architecture offre de meilleures performances par rapport aux autres architectures de pointe (Swin-T [22], Resnet50 [14], XceptionNet [7]). Le réseau EfficientNet-B1 possède 7,8 millions de paramètres internes qui ont été pré-entraînés sur l'ensemble de données d'image ImageNet1K [30].  Notre pipeline se compose de trois étapes : (1) une étape de prétraitement de l'image ; (2) une étape d'intégration d'image ; et (3) une étape de notation. Le modèle prend en entrée une image couleur et génère un score numérique compris dans la plage [0, 1]. Des scores proches de 0 indiquent que l’image est probablement réelle, et des scores proches de 1 indiquent que l’image est probablement générée par l’IA.   L'étape de prétraitement de l'image redimensionne l'image d'entrée à une résolution de 512 × 512 pixels. Cette image couleur redimensionnée est ensuite transmise à une couche d'apprentissage de transfert EfficientNet-B1. Au cours de l'étape de notation, la sortie de la couche d'apprentissage par transfert est transmise à deux couches entièrement connectées, chacune de taille 2 048, avec une fonction d'activation ReLU, une couche d'abandon avec une probabilité d'abandon de 0,8 et une couche de notation finale avec une activation sigmoïde. Seules les couches de notation – avec 6,8 millions de paramètres pouvant être entraînés – sont réglées. Les poids pouvant être entraînés sont optimisés à l'aide de l'algorithme AdaGrad avec un mini-lot de taille 32, un taux d'apprentissage de 0,0001 et entraînés jusqu'à 10 000 étapes. Un cluster avec 60 GPU NVIDIA A100 a été utilisé pour la formation du modèle.  Cet article est   sous licence CC 4.0. disponible sur arxiv  [7] Nous décrivons une ancienne version du modèle EfficientNet que nous avons précédemment opérationnalisé sur LinkedIn et qui a depuis été remplacée par un nouveau modèle. Nous reconnaissons que ce modèle n'est pas le plus récent, mais nous ne pouvons rapporter ces résultats que maintenant puisque le modèle n'est plus utilisé.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Cet audio est produit dans la langue originale de l'histoire !

Trouver des visages générés par l'IA dans la nature : modèle

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Télégramme : le pont de Crypto Island vers le continent

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Télégramme : le pont de Crypto Island vers le continent

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps