paint-brush
Encontrar rostros generados por IA en la naturaleza: resultadospor@botbeat
144 lecturas

Encontrar rostros generados por IA en la naturaleza: resultados

Demasiado Largo; Para Leer

La IA puede crear caras falsas realistas para estafas en línea. Este trabajo propone un método para detectar rostros generados por IA en imágenes.
featured image - Encontrar rostros generados por IA en la naturaleza: resultados
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn y Universidad de California, Berkeley.

Tabla de enlaces

4. Resultados

Nuestro desempeño de base en capacitación y evaluación se muestra en la Tabla 2. La evaluación se desglosa según si las imágenes de evaluación contienen una cara o no (las imágenes de capacitación contenían solo caras) y si las imágenes se generaron con el mismo (en el motor) o motores de síntesis diferentes (fuera del motor) a los utilizados en el entrenamiento (ver Sección 2.6). Para proporcionar una comparación directa de la tasa de verdaderos positivos[8] (TPR) para la capacitación y la evaluación, ajustamos el umbral de clasificación final para producir una tasa de falsos positivos[9] (FPR) del 0,5%.


Con un FPR fijo del 0,5 %, los rostros generados por IA se clasifican correctamente en entrenamiento y evaluación a una tasa del 98 %. En los diferentes motores de síntesis (StyleGAN 1,2,3, Stable Diffusion 1,2 y DALL-E 2) utilizados para el entrenamiento, el TPR varió un poco desde un mínimo del 93,3 % para Stable Diffusion 1 hasta un máximo del 99,5 % para StyleGAN. 2 y 98,9% para StyleGAN1, 99,9% para StyleGAN3, 94,9% para Stable Diffusion 2 y 99,2% para DALL-E 2.


Para caras generadas por motores de síntesis no utilizados en



Figura 3. Tasa de verdaderos positivos (TPR) para clasificar correctamente un rostro generado por IA (con un FPR fijo del 0,5%) en función de: (a) resolución donde el modelo se entrena en imágenes de 512 × 512 y se evalúa con diferentes resoluciones (sólido azul) y entrenado y evaluado en una resolución única N × N (rojo discontinuo); y (b) calidad JPEG, donde el modelo se entrena con imágenes sin comprimir y una variedad de imágenes comprimidas JPEG y se evalúa con calidades JPEG entre 20 (la más baja) y 100 (la más alta).



entrenamiento (fuera del motor), el TPR cae al 84,5% con el mismo FPR, lo que muestra una generalización fuera del dominio buena, pero no perfecta. Entre los diferentes motores de síntesis que no se utilizan en el entrenamiento, el TPR varió ampliamente con un mínimo del 19,4 % para Midjourney hasta un máximo del 99,5 % para EG3D y un 95,4 % para las fotos generadas. Nuestro clasificador generaliza bien en algunos casos y falla en otros. Sin embargo, esta limitación probablemente pueda mitigarse incorporando estas imágenes fuera del motor en la capacitación inicial.


En un resultado particularmente sorprendente, las no caras (generadas por los mismos motores de síntesis que se utilizan en el entrenamiento) están todas clasificadas incorrectamente. Lo más probable es que esto se deba a que algunas de nuestras imágenes reales no contienen rostros (consulte la Sección 2.1), mientras que todas las imágenes generadas por IA contienen rostros. Dado que sólo nos interesa detectar caras falsas utilizadas para crear una cuenta, no vemos esto como una limitación importante. Este resultado también sugiere que nuestro clasificador se ha aferrado a una propiedad específica de una cara generada por IA y no a algún artefacto de bajo nivel de la síntesis subyacente (por ejemplo, una huella digital de ruido [8]). En la Sección 4.1, proporcionamos evidencia adicional para respaldar esta hipótesis.


Los resultados de referencia anteriores se basan en el entrenamiento y la evaluación de imágenes con una resolución de 512 × 512 píxeles. En la Figura 3(a) (azul sólido) se muestra el TPR cuando las imágenes de entrenamiento se reducen a una resolución más baja (256, 128, 64 y 32) y luego se vuelven a escalar a 512 para su clasificación. Con el mismo FPR del 0,5%, el TPR para clasificar un rostro generado por IA cae con bastante rapidez desde una base del 98,0%.


Sin embargo, la tasa de verdaderos positivos mejora significativamente cuando el modelo se entrena con imágenes con una resolución de N × N (N = 32, 64, 128 o 256) y luego se evalúa con el mismo TPR observado en el entrenamiento, Figura 3(a ) (discontinuo rojo). Como antes, la tasa de falsos positivos se fija en el 0,5%. Aquí vemos que el TPR con una resolución de 128 × 128 sigue siendo relativamente alto (91,9 %) y sólo se degrada con la resolución más baja de 32 × 32 (44,1 %). La capacidad de detectar rostros generados por IA incluso a resoluciones relativamente bajas sugiere que nuestro modelo no se ha aferrado a un artefacto de bajo nivel que no sobreviviría a este nivel de muestreo reducido.


En la Figura 3(b) se muestra el TPR del clasificador, entrenado en imágenes PNG y JPEG sin comprimir de diferente calidad, evaluadas con imágenes en una variedad de calidades JPEG (que van desde la calidad más alta de 100 hasta la calidad más baja de 20). Aquí vemos que la TPR para identificar una cara generada por IA (la FPR es del 0,5 %) se degrada lentamente con una TPR del 94,3 % en una calidad 80 y una TPR del 88,0 % en una calidad de 60. Nuevamente, la capacidad de detectar caras generadas por IA en la presencia de artefactos de compresión JPEG sugiere que nuestro modelo no se ha aferrado a un artefacto de bajo nivel.

4.1. Explicabilidad

Como se muestra en la Sección 4, nuestro clasificador es altamente capaz de distinguir caras de IA generadas a partir de una variedad de diferentes motores de síntesis. Este clasificador, sin embargo, se limita solo a rostros, Tabla 2. Es decir, cuando se presentan imágenes que no son rostros de los mismos motores de síntesis que se usaron en el entrenamiento, el clasificador no las clasifica por completo como generadas por IA.


Postulamos que nuestro clasificador puede haber aprendido un artefacto de nivel semántico. Esta afirmación está respaldada en parte por el hecho de que nuestro clasificador sigue siendo muy preciso incluso con resoluciones tan bajas como 128×128 píxeles, Figura 3(a), y sigue siendo razonablemente preciso incluso frente a una compresión JPEG bastante agresiva, Figura 3(b). . Aquí proporcionamos más evidencia para respaldar esta afirmación de que hemos aprendido un artefacto de nivel estructural o semántico.


Está bien establecido que, si bien el reconocimiento de objetos de propósito general en el sistema visual humano es muy robusto ante la orientación, la pose y la distorsión de la perspectiva del objeto, el reconocimiento y el procesamiento de rostros son menos robustos incluso ante una simple inversión [27]. Este efecto queda deliciosamente ilustrado en la clásica ilusión de Margaret Thatcher [31]. Las caras de la fila superior de la Figura 4 son versiones invertidas de las de la fila inferior. En la versión de la derecha, los ojos y la boca están invertidos con respecto a la cara. Este cóctel de rasgos grotescos es evidente en el rostro erguido, pero no en el rostro invertido.


Nos preguntamos si nuestro clasificador tendría dificultades para clasificar.



Figura 4. La ilusión de Margaret Thatcher [31]: los rostros de la fila superior son versiones invertidas de los de la fila inferior. La inversión de ojos y boca en la parte inferior derecha es evidente cuando la cara está erguida, pero no cuando está invertida. (Crédito: Rob Bogaerts/Anefo https://commons.wikimedia.org/w/index.php?curid=79649613))



Caras verticalmente invertidas. Las mismas 10.000 imágenes de validación (Sección 2.6) se invirtieron y reclasificaron. Con la misma TPR fija del 0,5%, la TPR cayó 20 puntos porcentuales, del 98,0% al 77,7%.


En comparación, invertir las imágenes de validación sólo alrededor del eje vertical (es decir, invertir de izquierda a derecha) no produce ningún cambio en la TPR del 98,0 % con la misma FPR del 0,5 %. Este par de resultados, combinados con la solidez de la resolución y la calidad de la compresión, sugieren que nuestro modelo no se ha aferrado a un artefacto de bajo nivel y, en cambio, puede haber descubierto una propiedad estructural o semántica que distingue los rostros generados por IA de los rostros reales.


Exploramos más a fondo la naturaleza de nuestro clasificador utilizando el método de gradientes integrados [28]. Este método atribuye las predicciones realizadas por una red profunda a sus características de entrada. Debido a que este método se puede aplicar sin ningún cambio en el modelo entrenado, nos permite calcular la relevancia de cada píxel de la imagen de entrada con respecto a la decisión del modelo.


En la Figura 5 (a) se muestra la magnitud sin signo de los gradientes integrados normalizados (en el rango [0, 1]) promediados sobre 100 imágenes StyleGAN 2 (debido a que todas las caras generadas por StyleGAN están alineadas, el gradiente promediado es consistente con los rasgos faciales en todo todas las imágenes). En la Figura 5 (b) - (e) se muestran imágenes representativas y sus gradientes integrados normalizados para una imagen generada por DALL-2, Midjourney, Stable Diffusion 1 y Stable Diffusion 2. En todos los casos, vemos que los píxeles más relevantes , correspondientes a gradientes más grandes, se centran principalmente alrededor de la región facial y otras áreas de la piel.

4.2. Comparación

Debido a que se centró específicamente en detectar caras generadas por GAN, el trabajo de [23] está más directamente relacionado con el nuestro. En este trabajo, los autores muestran que un modelo lineal de baja dimensión captura la alineación facial común de los rostros generados por StyleGAN. Evaluado con 3000 rostros StyleGAN, su modelo clasifica correctamente el 99,5% de los rostros GAN y el 1% de los rostros reales se clasifican incorrectamente como IA. En comparación, logramos una TPR similar, pero con una TPR más baja del 0,5%.


Sin embargo, a diferencia de nuestro enfoque, que se generaliza a otras caras de GAN como generate.photos, el TPR para este trabajo anterior cae al 86,0 % (con el mismo 1 % de FPR). Además, este trabajo anterior no detecta caras basadas en difusión porque estas caras simplemente no contienen el mismo artefacto de alineación que las caras StyleGAN. En comparación, nuestra técnica se generaliza en caras generadas por GAN y difusión y en motores de síntesis que no se ven en el entrenamiento.


También evaluamos un modelo reciente de última generación que explota la presencia de artefactos de Fourier en imágenes generadas por IA [8]. En nuestro conjunto de datos de evaluación de rostros reales y generados por IA en el motor, este modelo clasifica correctamente solo el 23,8% de los rostros generados por IA con el mismo FPR del 0,5%. Este TPR es considerablemente menor que el TPR de nuestro modelo del 98,0% y también inferior al 90% TPR informado en [8]. Nuestra hipótesis es que esta discrepancia se debe a las imágenes reales más diversas y desafiantes de nuestro conjunto de datos.


Este documento está disponible en arxiv bajo licencia CC 4.0.


[8] La tasa de verdaderos positivos (TPR) es la fracción de fotografías generadas por IA que están clasificadas correctamente.


[9] La tasa de falsos positivos (FPR) es la fracción de fotos reales que están clasificadas incorrectamente.