paint-brush
KI-generierte Gesichter in freier Wildbahn finden: Modellvon@botbeat
141 Lesungen

KI-generierte Gesichter in freier Wildbahn finden: Modell

Zu lang; Lesen

KI kann realistische gefälschte Gesichter für Online-Betrug erstellen. Diese Arbeit schlägt eine Methode vor, um KI-generierte Gesichter in Bildern zu erkennen.
featured image - KI-generierte Gesichter in freier Wildbahn finden: Modell
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autoren:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn und University of California, Berkeley.

Linktabelle

3. Modell

Wir trainieren ein Modell, um echte von KI-generierten Gesichtern zu unterscheiden. Das zugrundeliegende Modell ist das Convolutional Neural Network EfficientNet-B1[7] [30]. Wir haben festgestellt, dass diese Architektur im Vergleich zu anderen modernen Architekturen (Swin-T [22], Resnet50 [14], XceptionNet [7]) eine bessere Leistung bietet. Das EfficientNet-B1-Netzwerk verfügt über 7,8 Millionen interne Parameter, die auf dem Bilddatensatz ImageNet1K vortrainiert wurden [30].


Unsere Pipeline besteht aus drei Phasen: (1) einer Bildvorverarbeitungsphase; (2) einer Bildeinbettungsphase; und (3) einer Bewertungsphase. Das Modell verwendet als Eingabe ein Farbbild und generiert eine numerische Bewertung im Bereich [0, 1]. Werte nahe 0 zeigen an, dass das Bild wahrscheinlich echt ist, und Werte nahe 1 zeigen an, dass das Bild wahrscheinlich KI-generiert ist.



Tabelle 2. Basistraining und Bewertung True Positive (korrekte Klassifizierung eines KI-generierten Bildes, gemittelt über alle Synthese-Engines (TPR)). Unter jeder Bedingung beträgt die False-Positive-Rate 0,5 % (falsche Klassifizierung eines echten Gesichts (FPR)). Ebenfalls angegeben ist der F1-Score, definiert als 2TP/(2TP + FP + FN). TP, FP und FN stellen jeweils die Anzahl der True Positives, False Positives und False Negatives dar. In-Engine/Out-of-Engine bedeutet, dass die Bilder mit denselben/anderen Synthese-Engines erstellt wurden wie die, die beim Training verwendet wurden.



Der Bildvorverarbeitungsschritt ändert die Größe des Eingabebilds auf eine Auflösung von 512×512 Pixeln. Dieses skalierte Farbbild wird dann an eine EfficientNet-B1-Transferlernschicht übergeben. In der Bewertungsphase wird die Ausgabe der Transferlernschicht an zwei vollständig verbundene Schichten mit jeweils 2.048 Pixeln Größe mit einer ReLU-Aktivierungsfunktion, einer Dropout-Schicht mit einer Dropout-Wahrscheinlichkeit von 0,8 und einer letzten Bewertungsschicht mit einer sigmoidalen Aktivierung weitergeleitet. Nur die Bewertungsschichten – mit 6,8 Millionen trainierbaren Parametern – werden abgestimmt. Die trainierbaren Gewichte werden mithilfe des AdaGrad-Algorithmus mit einem Minibatch der Größe 32 und einer Lernrate von 0,0001 optimiert und für bis zu 10.000 Schritte trainiert. Für das Modelltraining wurde ein Cluster mit 60 NVIDIA A100-GPUs verwendet.



[7] Wir beschreiben eine ältere Version des EfficientNet-Modells, das wir zuvor auf LinkedIn operationalisiert haben und das inzwischen durch ein neues Modell ersetzt wurde. Wir erkennen an, dass dieses Modell nicht das neueste ist, können diese Ergebnisse jedoch erst jetzt berichten, da das Modell nicht mehr verwendet wird.