Autores:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn y Universidad de California, Berkeley.
Nuestra capacitación y evaluación aprovechan 18 conjuntos de datos que constan de 120 000 fotos de perfil reales de LinkedIn y 105 900 rostros generados por IA que abarcan cinco GAN diferentes y cinco motores de síntesis de difusión diferentes. Las imágenes generadas por IA constan de dos categorías principales, las que tienen cara y las que no. Las imágenes en color real y sintetizado (RGB) cambian de tamaño desde su resolución original a 512 × 512 píxeles. En la Tabla 1 se muestra una descripción de estas imágenes, y en la Figura 2 se muestran ejemplos representativos de cada una de las categorías generadas por IA como se describe a continuación.
Las 120.000 fotos reales se tomaron como muestra de usuarios de LinkedIn con fotos de perfil de acceso público cargadas entre el 1 de enero de 2019 y el 1 de diciembre de 2022. Estas cuentas mostraron actividad en la plataforma durante al menos 30 días (por ejemplo, iniciar sesión, publicar, enviar mensajes, buscar). ) sin activar ningún detector de cuentas falsas. Dada la antigüedad y la actividad de las cuentas, podemos estar seguros de que estas fotos son reales. Estas imágenes tenían una resolución y calidad muy variables. Aunque la mayoría de estas imágenes son fotografías de perfil estándar que consisten en una sola persona, algunas no contienen rostro. Por el contrario, todas las imágenes generadas por IA (que se describen a continuación) consisten en una cara. Revisaremos esta diferencia entre imágenes reales y falsas en la Sección 4.
2 y 3, las imágenes en color se sintetizaron con una resolución de 1024 × 1024 píxeles y con ψ = 0,5. [1] Para EG3D (Redes adversarias generativas 3D con reconocimiento de geometría eficiente), la llamada versión 3D de StyleGAN, sintetizamos 10.000 imágenes con una resolución de 512 × 512, con ψ = 0,5 y con poses aleatorias de la cabeza.
Se descargaron un total de 10.000 imágenes con una resolución de 1024 × 1024 píxeles de generate.photos[2]. Estas imágenes sintetizadas por GAN generalmente producen tomas de rostro de aspecto más profesional porque la red está entrenada en un conjunto de datos de imágenes de alta calidad grabadas en un estudio fotográfico.
Se descargaron un total de 5000 imágenes de StyleGAN 1[3] para cada una de las tres categorías que no son rostros: dormitorios, automóviles y gatos (los repositorios de otras versiones de StyleGAN no proporcionan imágenes para categorías distintas de rostros). Estas imágenes variaban en tamaño desde 512 × 384 (automóviles) hasta 256 × 256 (dormitorios y gatos).
Generamos 9.000 imágenes de cada versión de Stable Diffusion [26] (1, 2) [4]. A diferencia de las caras GAN descritas anteriormente, la síntesis de difusión de texto a imagen ofrece más control sobre la apariencia de las caras. Para garantizar la diversidad, 300 caras para cada uno de los 30 grupos demográficos con las indicaciones "una foto de un {joven, de mediana edad, mayor} {negro, del este de Asia, hispano, del sur de Asia, blanco} {mujer, hombre}". Estas imágenes se sintetizaron con una resolución de 512 × 512. Este conjunto de datos se seleccionó para eliminar fallas de síntesis obvias en las que, por ejemplo, la cara no era visible.
Se sintetizaron 900 imágenes adicionales a partir de la versión más reciente de Stable Diffusion (xl). Utilizando las mismas categorías demográficas que antes, se generaron 30 imágenes para cada una de las 30 categorías, cada una con una resolución de 768 × 768.
Generamos 9.000 imágenes a partir de DALL-E 2 [5], que constan de 300 imágenes para cada uno de los 30 grupos demográficos. Estas imágenes fueron sintetizadas con una resolución de 512×512 píxeles.
Se descargaron un total de 1000 imágenes de Midjourney[6] con una resolución de 512 × 512. Estas imágenes se seleccionaron manualmente para que constaran de una sola cara.
Sintetizamos 1000 imágenes sin rostros de cada una de las dos versiones de Stable Diffusion (1, 2). Estas imágenes se generaron utilizando subtítulos aleatorios (generados por ChatGPT) y se revisaron manualmente para eliminar cualquier imagen que contenga una persona o un rostro. Estas imágenes fueron sintetizadas con una resolución de 600 × 600 píxeles. Se sintetizó un conjunto similar de 1.000 imágenes DALL-E 2 y 1.000 Midjourney con una resolución de 512 × 512.
Los conjuntos de imágenes enumerados anteriormente se dividen en entrenamiento y evaluación de la siguiente manera. Nuestro modelo (descrito en la Sección 3) se entrena en un subconjunto aleatorio de 30.000 rostros reales y 30.000 rostros generados por IA. Las caras generadas por IA se componen de un subconjunto aleatorio de 5250 StyleGAN 1, 5250 StyleGAN 2, 4500 StyleGAN 3, 3750 Stable Diffusion 1, 3750 Stable Diffusion 2 y 7500 imágenes DALL-E 2.
Evaluamos nuestro modelo con respecto a lo siguiente:
• Un conjunto de 5000 imágenes de rostros de los mismos motores de síntesis utilizados en el entrenamiento (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 y DALL-E 2).
• Un conjunto de 5.000 imágenes de rostros de motores de síntesis que no se utilizan en el entrenamiento (Generated.photos, EG3D, Stable Diffusion xl y Midjourney).
• Un conjunto de 3750 imágenes sin rostros de cada uno de los cinco motores de síntesis (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 y Midjourney).
• Un conjunto de 13.750 rostros reales.
Este documento está disponible en arxiv bajo licencia CC 4.0.
[1] El parámetro StyleGAN ψ (normalmente en el rango [0, 1]) controla el truncamiento de los valores semilla en la representación del espacio latente utilizado para generar una imagen. Los valores más pequeños de ψ proporcionan una mejor calidad de imagen pero reducen la variedad facial. Un valor medio de ψ = 0,5 produce rostros relativamente libres de artefactos, al tiempo que permite variaciones en el género, la edad y el origen étnico en el rostro sintetizado.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https://github. com / Estabilidad - IA / StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com