paint-brush
KI-generierte Gesichter in freier Wildbahn finden: Ergebnissevon@botbeat
131 Lesungen

KI-generierte Gesichter in freier Wildbahn finden: Ergebnisse

Zu lang; Lesen

KI kann realistische gefälschte Gesichter für Online-Betrug erstellen. Diese Arbeit schlägt eine Methode vor, um KI-generierte Gesichter in Bildern zu erkennen.
featured image - KI-generierte Gesichter in freier Wildbahn finden: Ergebnisse
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autoren:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn und University of California, Berkeley.

Linktabelle

4. Ergebnisse

Unsere Basisleistung bei Training und Auswertung ist in Tabelle 2 dargestellt. Die Auswertung wird danach aufgeschlüsselt, ob die Auswertungsbilder ein Gesicht enthalten oder nicht (Trainingsbilder enthielten nur Gesichter) und ob die Bilder mit denselben (Engine-intern) oder anderen (Engine-extern) Synthese-Engines wie denen, die beim Training verwendet wurden, generiert wurden (siehe Abschnitt 2.6). Um einen direkten Vergleich der True-Positive-Rate[8] (TPR) für Training und Auswertung zu ermöglichen, passen wir den endgültigen Klassifizierungsschwellenwert so an, dass sich eine False-Positive-Rate[9] (FPR) von 0,5 % ergibt.


Bei einer festen FPR von 0,5 % werden KI-generierte Gesichter beim Training und bei der Auswertung zu 98 % richtig klassifiziert. Bei den verschiedenen Synthese-Engines (StyleGAN 1,2,3, Stable Diffusion 1,2 und DALL-E 2), die zum Training verwendet wurden, variierte die TPR etwas zwischen 93,3 % für Stable Diffusion 1 und 99,5 % für StyleGAN 2, 98,9 % für StyleGAN1, 99,9 % für StyleGAN3, 94,9 % für Stable Diffusion 2 und 99,2 % für DALL-E 2.


Für Gesichter, die von Synthese-Engines erzeugt werden, die nicht in



Abbildung 3. True Positive Rate (TPR) für die korrekte Klassifizierung eines KI-generierten Gesichts (mit einer festen FPR von 0,5 %) als Funktion von: (a) Auflösung, wobei das Modell anhand von 512 x 512 Bildern trainiert und anhand unterschiedlicher Auflösungen (durchgezogen blau) und anhand einer einzigen Auflösung N x N (gestricheltes Rot) bewertet wird; und (b) JPEG-Qualität, wobei das Modell anhand von unkomprimierten Bildern und einer Reihe komprimierter JPEG-Bilder trainiert und anhand von JPEG-Qualitäten zwischen 20 (niedrigste) und 100 (höchste) bewertet wird.



Beim Training (außerhalb der Engine) sinkt der TPR bei gleicher FPR auf 84,5 %, was eine gute, aber nicht perfekte Generalisierung außerhalb der Domäne zeigt. Zwischen den verschiedenen Synthese-Engines, die nicht beim Training verwendet wurden, variierte der TPR stark, mit einem Tiefstwert von 19,4 % für Midjourney bis zu einem Höchstwert von 99,5 % für EG3D und 95,4 % für generated.photos. Unser Klassifikator verallgemeinert in einigen Fällen gut, in anderen versagt er. Diese Einschränkung kann jedoch wahrscheinlich gemildert werden, indem diese Bilder außerhalb der Engine in das anfängliche Training integriert werden.


Besonders auffällig ist, dass Nicht-Gesichter – die von denselben Synthese-Engines wie beim Training generiert wurden – alle falsch klassifiziert werden. Dies liegt höchstwahrscheinlich daran, dass einige unserer realen Bilder keine Gesichter enthalten (siehe Abschnitt 2.1), während alle von der KI generierten Bilder Gesichter enthalten. Da wir nur daran interessiert sind, gefälschte Gesichter zu erkennen, die zur Erstellung eines Kontos verwendet wurden, sehen wir dies nicht als große Einschränkung an. Dieses Ergebnis deutet auch darauf hin, dass unser Klassifikator sich an eine bestimmte Eigenschaft eines von der KI generierten Gesichts und nicht an ein einfaches Artefakt aus der zugrunde liegenden Synthese (z. B. einen Rauschfingerabdruck [8]) geklammert hat. In Abschnitt 4.1 liefern wir zusätzliche Beweise zur Untermauerung dieser Hypothese.


Die oben genannten Basisergebnisse basieren auf dem Training und der Auswertung von Bildern mit einer Auflösung von 512 x 512 Pixeln. In Abbildung 3(a) (durchgehend blau) ist der TPR dargestellt, wenn die Trainingsbilder auf eine niedrigere Auflösung (256, 128, 64 und 32) herunterskaliert und dann zur Klassifizierung wieder auf 512 hochskaliert werden. Mit demselben FPR von 0,5 % sinkt der TPR für die Klassifizierung eines KI-generierten Gesichts ziemlich schnell von einem Basiswert von 98,0 %.


Die Rate der wahren Positivergebnisse verbessert sich jedoch erheblich, wenn das Modell anhand von Bildern mit einer Auflösung von N × N (N = 32, 64, 128 oder 256) trainiert und dann mit derselben TPR wie beim Training ausgewertet wird, Abbildung 3(a) (rot gestrichelt). Wie zuvor ist die Rate der falschen Positivergebnisse auf 0,5 % festgelegt. Hier sehen wir, dass die TPR bei einer Auflösung von 128 × 128 relativ hoch bleibt (91,9 %) und sich nur bei der niedrigsten Auflösung von 32 × 32 verschlechtert (44,1 %). Die Fähigkeit, KI-generierte Gesichter selbst bei relativ niedrigen Auflösungen zu erkennen, deutet darauf hin, dass unser Modell kein Artefakt auf niedriger Ebene erkannt hat, das dieses Downsampling-Niveau nicht überstehen würde.


In Abbildung 3(b) ist der TPR des Klassifikators dargestellt, der mit unkomprimierten PNG- und JPEG-Bildern unterschiedlicher Qualität trainiert und anhand von Bildern in einer Reihe von JPEG-Qualitäten (von der höchsten Qualität 100 bis zur niedrigsten Qualität 20) bewertet wurde. Hier sehen wir, dass der TPR zum Identifizieren eines KI-generierten Gesichts (FPR beträgt 0,5 %) langsam abnimmt, mit einem TPR von 94,3 % bei Qualität 80 und einem TPR von 88,0 % bei einer Qualität von 60. Auch hier deutet die Fähigkeit, KI-generierte Gesichter bei Vorhandensein von JPEG-Komprimierungsartefakten zu erkennen, darauf hin, dass unser Modell kein Artefakt auf niedriger Ebene erkannt hat.

4.1. Erklärbarkeit

Wie in Abschnitt 4 gezeigt, ist unser Klassifikator sehr gut in der Lage, KI-Gesichter zu unterscheiden, die von einer Reihe verschiedener Synthese-Engines generiert wurden. Dieser Klassifikator ist jedoch auf Gesichter beschränkt, siehe Tabelle 2. Das heißt, wenn ihm Bilder, die keine Gesichter sind, aus denselben Synthese-Engines präsentiert werden, die auch beim Training verwendet wurden, kann der Klassifikator sie überhaupt nicht als KI-generiert klassifizieren.


Wir gehen davon aus, dass unser Klassifikator möglicherweise ein Artefakt auf semantischer Ebene gelernt hat. Diese Behauptung wird teilweise dadurch gestützt, dass unser Klassifikator selbst bei Auflösungen von nur 128×128 Pixeln hochpräzise bleibt (Abbildung 3(a)) und selbst bei ziemlich aggressiver JPEG-Komprimierung einigermaßen genau bleibt (Abbildung 3(b). Hier liefern wir weitere Beweise zur Untermauerung dieser Behauptung, dass wir ein Artefakt auf struktureller oder semantischer Ebene gelernt haben.


Es ist allgemein bekannt, dass die allgemeine Objekterkennung des menschlichen visuellen Systems sehr robust gegenüber Objektausrichtung, Körperhaltung und perspektivischer Verzerrung ist, während die Gesichtserkennung und -verarbeitung selbst gegenüber einer einfachen Umkehrung weniger robust ist [27]. Dieser Effekt wird auf wunderbare Weise durch die klassische Margaret-Thatcher-Illusion veranschaulicht [31]. Die Gesichter in der oberen Reihe von Abbildung 4 sind umgekehrte Versionen der Gesichter in der unteren Reihe. In der Version rechts sind Augen und Mund im Verhältnis zum Gesicht umgekehrt. Dieser groteske Gesichtscocktail ist im aufrechten Gesicht deutlich zu erkennen, nicht jedoch im umgekehrten Gesicht.


Wir fragten uns, ob unser Klassifikator Probleme bei der Klassifizierung haben würde



Abbildung 4. Die Margaret-Thatcher-Illusion [31]: Die Gesichter in der oberen Reihe sind umgekehrte Versionen der Gesichter in der unteren Reihe. Die Umkehrung von Augen und Mund unten rechts ist deutlich zu erkennen, wenn das Gesicht aufrecht steht, aber nicht, wenn es umgekehrt ist. (Quelle: Rob Bogaerts/Anefo https://commons.wikimedia.org/w/index.php? curid=79649613))



vertikal invertierte Gesichter. Dieselben 10.000 Validierungsbilder (Abschnitt 2.6) wurden invertiert und neu klassifiziert. Bei derselben festen FPR von 0,5 % sank die TPR um 20 Prozentpunkte von 98,0 % auf 77,7 %.


Im Vergleich dazu ergibt das Spiegeln der Validierungsbilder nur um die vertikale Achse (d. h. von links nach rechts) keine Änderung des TPR von 98,0 % bei gleichem FPR von 0,5 %. Dieses Ergebnispaar, kombiniert mit der Robustheit gegenüber Auflösung und Komprimierungsqualität, deutet darauf hin, dass unser Modell kein Artefakt auf niedriger Ebene erkannt hat, sondern stattdessen eine strukturelle oder semantische Eigenschaft entdeckt hat, die KI-generierte Gesichter von echten Gesichtern unterscheidet.


Wir untersuchen die Natur unseres Klassifikators weiter mit der Methode der integrierten Gradienten [28]. Diese Methode führt die Vorhersagen eines tiefen Netzwerks auf seine Eingabemerkmale zurück. Da diese Methode ohne Änderungen am trainierten Modell angewendet werden kann, können wir die Relevanz jedes Eingabebildpixels in Bezug auf die Entscheidung des Modells berechnen.


In Abbildung 5(a) ist die vorzeichenlose Größe der normalisierten (im Bereich [0, 1]) integrierten Gradienten dargestellt, gemittelt über 100 StyleGAN 2-Bilder (da die von StyleGAN generierten Gesichter alle ausgerichtet sind, stimmt der gemittelte Gradient mit den Gesichtszügen in allen Bildern überein). In Abbildung 5(b)-(e) sind repräsentative Bilder und ihre normalisierten integrierten Gradienten für ein von DALL-2, Midjourney, Stable Diffusion 1 und Stable Diffusion 2 generiertes Bild dargestellt. In allen Fällen sehen wir, dass die relevantesten Pixel, die größeren Gradienten entsprechen, hauptsächlich auf die Gesichtsregion und andere Hautbereiche fokussiert sind.

4.2. Vergleich

Da sich die Arbeit von [23] speziell auf die Erkennung von GAN-generierten Gesichtern konzentrierte, ist sie am direktesten mit unserer verwandt. In dieser Arbeit zeigen die Autoren, dass ein niedrigdimensionales lineares Modell die gemeinsame Gesichtsausrichtung von StyleGAN-generierten Gesichtern erfasst. Ausgewertet anhand von 3.000 StyleGAN-Gesichtern klassifiziert ihr Modell 99,5 % der GAN-Gesichter korrekt, wobei 1 % der realen Gesichter fälschlicherweise als KI klassifiziert werden. Im Vergleich dazu erreichen wir eine ähnliche TPR, jedoch mit einer niedrigeren FPR von 0,5 %.


Im Gegensatz zu unserem Ansatz, der sich jedoch auf andere GAN-Gesichter wie generated.photos verallgemeinern lässt, sinkt der TPR für diese frühere Arbeit auf 86,0 % (bei derselben 1 % FPR). Darüber hinaus kann diese frühere Arbeit diffusionsbasierte Gesichter nicht erkennen, da diese Gesichter einfach nicht dasselbe Ausrichtungsartefakt wie StyleGAN-Gesichter aufweisen. Im Vergleich dazu lässt sich unsere Technik auf GAN- und diffusionsgenerierte Gesichter und auf Synthese-Engines verallgemeinern, die beim Training nicht zum Einsatz kamen.


Wir haben auch ein aktuelles hochmodernes Modell evaluiert, das das Vorhandensein von Fourier-Artefakten in KI-generierten Bildern ausnutzt [8]. Auf unserem Evaluierungsdatensatz aus realen und in der Engine KI-generierten Gesichtern klassifiziert dieses Modell nur 23,8 % der KI-generierten Gesichter bei derselben FPR von 0,5 % korrekt. Diese TPR ist erheblich niedriger als die TPR unseres Modells von 98,0 % und auch niedriger als die in [8] berichtete TPR von 90 %. Wir vermuten, dass diese Diskrepanz auf die vielfältigeren und anspruchsvolleren realen Bilder in freier Wildbahn unseres Datensatzes zurückzuführen ist.



[8] Die True Positive Rate (TPR) ist der Anteil der von KI generierten Fotos, die korrekt klassifiziert werden.


[9] Die False-Positive-Rate (FPR) ist der Anteil der echten Fotos, die falsch klassifiziert werden.