Autoren:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn und University of California, Berkeley.
Wir trainieren ein Modell, um echte von KI-generierten Gesichtern zu unterscheiden. Das zugrundeliegende Modell ist das Convolutional Neural Network EfficientNet-B1[7] [30]. Wir haben festgestellt, dass diese Architektur im Vergleich zu anderen modernen Architekturen (Swin-T [22], Resnet50 [14], XceptionNet [7]) eine bessere Leistung bietet. Das EfficientNet-B1-Netzwerk verfügt über 7,8 Millionen interne Parameter, die auf dem Bilddatensatz ImageNet1K vortrainiert wurden [30].
Unsere Pipeline besteht aus drei Phasen: (1) einer Bildvorverarbeitungsphase; (2) einer Bildeinbettungsphase; und (3) einer Bewertungsphase. Das Modell verwendet als Eingabe ein Farbbild und generiert eine numerische Bewertung im Bereich [0, 1]. Werte nahe 0 zeigen an, dass das Bild wahrscheinlich echt ist, und Werte nahe 1 zeigen an, dass das Bild wahrscheinlich KI-generiert ist.
Der Bildvorverarbeitungsschritt ändert die Größe des Eingabebilds auf eine Auflösung von 512×512 Pixeln. Dieses skalierte Farbbild wird dann an eine EfficientNet-B1-Transferlernschicht übergeben. In der Bewertungsphase wird die Ausgabe der Transferlernschicht an zwei vollständig verbundene Schichten mit jeweils 2.048 Pixeln Größe mit einer ReLU-Aktivierungsfunktion, einer Dropout-Schicht mit einer Dropout-Wahrscheinlichkeit von 0,8 und einer letzten Bewertungsschicht mit einer sigmoidalen Aktivierung weitergeleitet. Nur die Bewertungsschichten – mit 6,8 Millionen trainierbaren Parametern – werden abgestimmt. Die trainierbaren Gewichte werden mithilfe des AdaGrad-Algorithmus mit einem Minibatch der Größe 32 und einer Lernrate von 0,0001 optimiert und für bis zu 10.000 Schritte trainiert. Für das Modelltraining wurde ein Cluster mit 60 NVIDIA A100-GPUs verwendet.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .
[7] Wir beschreiben eine ältere Version des EfficientNet-Modells, das wir zuvor auf LinkedIn operationalisiert haben und das inzwischen durch ein neues Modell ersetzt wurde. Wir erkennen an, dass dieses Modell nicht das neueste ist, können diese Ergebnisse jedoch erst jetzt berichten, da das Modell nicht mehr verwendet wird.