Autoren:  (1) Gonzalo J. Aniano Porcile, LinkedIn;  (2) Jack Gindi, LinkedIn;  (3) Shivansh Mundra, LinkedIn;  (4) James R. Verbus, LinkedIn;  (5) Hany Farid, LinkedIn und University of California, Berkeley.  Linktabelle   Zusammenfassung und Einleitung   Datensätze   Modell   Ergebnisse   Diskussion, Danksagungen und Referenzen  3. Modell  Wir trainieren ein Modell, um echte von KI-generierten Gesichtern zu unterscheiden. Das zugrundeliegende Modell ist das Convolutional Neural Network EfficientNet-B1[7] [30]. Wir haben festgestellt, dass diese Architektur im Vergleich zu anderen modernen Architekturen (Swin-T [22], Resnet50 [14], XceptionNet [7]) eine bessere Leistung bietet. Das EfficientNet-B1-Netzwerk verfügt über 7,8 Millionen interne Parameter, die auf dem Bilddatensatz ImageNet1K vortrainiert wurden [30].  Unsere Pipeline besteht aus drei Phasen: (1) einer Bildvorverarbeitungsphase; (2) einer Bildeinbettungsphase; und (3) einer Bewertungsphase. Das Modell verwendet als Eingabe ein Farbbild und generiert eine numerische Bewertung im Bereich [0, 1]. Werte nahe 0 zeigen an, dass das Bild wahrscheinlich echt ist, und Werte nahe 1 zeigen an, dass das Bild wahrscheinlich KI-generiert ist.   Der Bildvorverarbeitungsschritt ändert die Größe des Eingabebilds auf eine Auflösung von 512×512 Pixeln. Dieses skalierte Farbbild wird dann an eine EfficientNet-B1-Transferlernschicht übergeben. In der Bewertungsphase wird die Ausgabe der Transferlernschicht an zwei vollständig verbundene Schichten mit jeweils 2.048 Pixeln Größe mit einer ReLU-Aktivierungsfunktion, einer Dropout-Schicht mit einer Dropout-Wahrscheinlichkeit von 0,8 und einer letzten Bewertungsschicht mit einer sigmoidalen Aktivierung weitergeleitet. Nur die Bewertungsschichten – mit 6,8 Millionen trainierbaren Parametern – werden abgestimmt. Die trainierbaren Gewichte werden mithilfe des AdaGrad-Algorithmus mit einem Minibatch der Größe 32 und einer Lernrate von 0,0001 optimiert und für bis zu 10.000 Schritte trainiert. Für das Modelltraining wurde ein Cluster mit 60 NVIDIA A100-GPUs verwendet.  Dieses Dokument ist   . auf Arxiv unter der CC 4.0-Lizenz verfügbar  [7] Wir beschreiben eine ältere Version des EfficientNet-Modells, das wir zuvor auf LinkedIn operationalisiert haben und das inzwischen durch ein neues Modell ersetzt wurde. Wir erkennen an, dass dieses Modell nicht das neueste ist, können diese Ergebnisse jedoch erst jetzt berichten, da das Modell nicht mehr verwendet wird.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Dieses Audio ist in der Originalsprache der Geschichte produziert!

KI-generierte Gesichter in freier Wildbahn finden: Modell

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Wir feiern unsere Remote-Work-Community!

HackerNoon Decoded 2024: Celebrating Our AI Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Tech Stories Community!

HackerNoon Decoded 2024: Wir feiern unsere Remote-Work-Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps