Autoren:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn und University of California, Berkeley.
Unser Training und unsere Evaluierung nutzen 18 Datensätze, bestehend aus 120.000 echten LinkedIn-Profilfotos und 105.900 KI-generierten Gesichtern, die sich über fünf verschiedene GANs und fünf verschiedene Diffusionssynthese-Engines erstrecken. Die KI-generierten Bilder bestehen aus zwei Hauptkategorien: solche mit Gesicht und solche ohne. Echte und synthetisierte Farbbilder (RGB) werden von ihrer ursprünglichen Auflösung auf 512 × 512 Pixel verkleinert. In Tabelle 1 ist eine Auflistung dieser Bilder dargestellt, und in Abbildung 2 sind repräsentative Beispiele aus jeder der KI-generierten Kategorien dargestellt, wie im Folgenden beschrieben.
Die 120.000 echten Fotos wurden von LinkedIn-Benutzern mit öffentlich zugänglichen Profilfotos ausgewählt, die zwischen dem 1. Januar 2019 und dem 1. Dezember 2022 hochgeladen wurden. Diese Konten zeigten an mindestens 30 Tagen Aktivität auf der Plattform (z. B. angemeldet, gepostet, Nachrichten gesendet, gesucht), ohne dass ein Fake-Account-Detektor ausgelöst wurde. Angesichts des Alters und der Aktivität auf den Konten können wir davon ausgehen, dass diese Fotos echt sind. Diese Bilder hatten eine sehr unterschiedliche Auflösung und Qualität. Obwohl die meisten dieser Bilder Standardprofilfotos mit einer einzelnen Person sind, enthalten einige kein Gesicht. Im Gegensatz dazu enthalten alle von der KI generierten Bilder (die als nächstes beschrieben werden) ein Gesicht. Wir werden diesen Unterschied zwischen echten und gefälschten Bildern in Abschnitt 4 erneut aufgreifen.
2 und 3 wurden Farbbilder mit einer Auflösung von 1024×1024 Pixeln und mit ψ = 0,5 synthetisiert. [1] Für EG3D (Efficient Geometry-aware 3D Generative Adversarial Networks), die sogenannte 3D-Version von StyleGAN, synthetisierten wir 10.000 Bilder mit einer Auflösung von 512×512, mit ψ = 0,5 und mit zufälligen Kopfposen.
Insgesamt wurden 10.000 Bilder mit einer Auflösung von 1024 × 1024 Pixeln von generated.photos[2] heruntergeladen. Diese GAN-synthetisierten Bilder erzeugen im Allgemeinen professioneller wirkende Porträts, da das Netzwerk anhand eines Datensatzes qualitativ hochwertiger Bilder trainiert wird, die in einem Fotostudio aufgenommen wurden.
Insgesamt wurden 5.000 StyleGAN 1-Bilder für jede der drei Nicht-Gesichtskategorien heruntergeladen[3]: Schlafzimmer, Autos und Katzen (die Repositories für andere StyleGAN-Versionen bieten keine Bilder für andere Kategorien als Gesichter). Die Größe dieser Bilder reichte von 512 × 384 (Autos) bis 256 × 256 (Schlafzimmer und Katzen).
Wir haben 9.000 Bilder aus jeder Stable Diffusion-Version [26] (1, 2)[4] generiert. Im Gegensatz zu den oben beschriebenen GAN-Gesichtern bietet die Text-zu-Bild-Diffusionssynthese mehr Kontrolle über das Erscheinungsbild der Gesichter. Um Vielfalt zu gewährleisten, wurden 300 Gesichter für jede der 30 demografischen Gruppen mit den Vorgaben „ein Foto einer {jungen, mittelalten, älteren} {schwarzen, ostasiatischen, hispanischen, südasiatischen, weißen} {Frau, eines Mannes}“ erstellt. Diese Bilder wurden mit einer Auflösung von 512 × 512 synthetisiert. Dieser Datensatz wurde kuratiert, um offensichtliche Synthesefehler zu beseitigen, bei denen beispielsweise das Gesicht nicht sichtbar war.
Weitere 900 Bilder wurden aus der neuesten Version von Stable Diffusion (xl) synthetisiert. Unter Verwendung derselben demografischen Kategorien wie zuvor wurden für jede der 30 Kategorien 30 Bilder mit einer Auflösung von 768 × 768 generiert.
Wir haben 9.000 Bilder aus DALL-E 2 [5] generiert, bestehend aus 300 Bildern für jede der 30 demografischen Gruppen. Diese Bilder wurden mit einer Auflösung von 512×512 Pixeln synthetisiert.
Insgesamt wurden 1.000 Midjourney[6]-Bilder mit einer Auflösung von 512 × 512 heruntergeladen. Diese Bilder wurden manuell kuratiert, sodass sie nur ein einziges Gesicht enthalten.
Wir haben aus jeder der beiden Versionen von Stable Diffusion (1, 2) 1.000 Bilder ohne Gesichter synthetisiert. Diese Bilder wurden mithilfe zufälliger Bildunterschriften (generiert von ChatGPT) erstellt und manuell überprüft, um alle Bilder zu entfernen, die eine Person oder ein Gesicht enthielten. Diese Bilder wurden mit einer Auflösung von 600 × 600 Pixeln synthetisiert. Ein ähnlicher Satz von 1.000 DALL-E 2- und 1.000 Midjourney-Bildern wurde mit einer Auflösung von 512 × 512 synthetisiert.
Die oben aufgezählten Bildsätze werden wie folgt in Training und Auswertung aufgeteilt. Unser Modell (beschrieben in Abschnitt 3) wird anhand einer zufälligen Teilmenge von 30.000 echten Gesichtern und 30.000 KI-generierten Gesichtern trainiert. Die KI-generierten Gesichter bestehen aus einer zufälligen Teilmenge von 5.250 StyleGAN 1, 5.250 StyleGAN 2, 4.500 StyleGAN 3, 3.750 Stable Diffusion 1, 3.750 Stable Diffusion 2 und 7.500 DALL-E 2-Bildern.
Wir bewerten unser Modell anhand der folgenden Punkte:
• Ein Satz von 5.000 Gesichtsbildern aus denselben Synthese-Engines, die beim Training verwendet wurden (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 und DALL-E 2).
• Ein Satz von 5.000 Gesichtsbildern von Synthese-Engines, die nicht im Training verwendet wurden (Generated.photos, EG3D, Stable Diffusion xl und Midjourney).
• Ein Satz von 3.750 Bildern, die keine Gesichter zeigen, von jeder der fünf Synthese-Engines (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 und Midjourney).
• Ein Satz von 13.750 echten Gesichtern.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .
[1] Der StyleGAN-Parameter ψ (normalerweise im Bereich [0, 1]) steuert die Kürzung der Startwerte in der latenten Raumdarstellung, die zur Generierung eines Bildes verwendet wird. Kleinere Werte von ψ liefern eine bessere Bildqualität, verringern jedoch die Gesichtsvielfalt. Ein mittlerer Wert von ψ = 0,5 erzeugt relativ artefaktfreie Gesichter und ermöglicht gleichzeitig Variationen in Geschlecht, Alter und ethnischer Zugehörigkeit im synthetisierten Gesicht.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https:/ /github.com/Stabilität-KI/StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com