Autores:  (1) Gonzalo J. Aniano Porcile, LinkedIn;  (2) Jack Gindi, LinkedIn;  (3) Shivansh Mundra, LinkedIn;  (4) James R. Verbus, LinkedIn;  (5) Hany Farid, LinkedIn y Universidad de California, Berkeley.  Tabla de enlaces   Resumen e introducción   Conjuntos de datos   Modelo   Resultados   Discusión, agradecimientos y referencias  2. Conjuntos de datos  Nuestra capacitación y evaluación aprovechan 18 conjuntos de datos que constan de 120 000 fotos de perfil reales de LinkedIn y 105 900 rostros generados por IA que abarcan cinco GAN diferentes y cinco motores de síntesis de difusión diferentes. Las imágenes generadas por IA constan de dos categorías principales, las que tienen cara y las que no. Las imágenes en color real y sintetizado (RGB) cambian de tamaño desde su resolución original a 512 × 512 píxeles. En la Tabla 1 se muestra una descripción de estas imágenes, y en la Figura 2 se muestran ejemplos representativos de cada una de las categorías generadas por IA como se describe a continuación.  2.1. caras reales  Las 120.000 fotos reales se tomaron como muestra de usuarios de LinkedIn con fotos de perfil de acceso público cargadas entre el 1 de enero de 2019 y el 1 de diciembre de 2022. Estas cuentas mostraron actividad en la plataforma durante al menos 30 días (por ejemplo, iniciar sesión, publicar, enviar mensajes, buscar). ) sin activar ningún detector de cuentas falsas. Dada la antigüedad y la actividad de las cuentas, podemos estar seguros de que estas fotos son reales. Estas imágenes tenían una resolución y calidad muy variables. Aunque la mayoría de estas imágenes son fotografías de perfil estándar que consisten en una sola persona, algunas no contienen rostro. Por el contrario, todas las imágenes generadas por IA (que se describen a continuación) consisten en una cara. Revisaremos esta diferencia entre imágenes reales y falsas en la Sección 4.  2.2. Caras GAN   2 y 3, las imágenes en color se sintetizaron con una resolución de 1024 × 1024 píxeles y con ψ = 0,5. [1] Para EG3D (Redes adversarias generativas 3D con reconocimiento de geometría eficiente), la llamada versión 3D de StyleGAN, sintetizamos 10.000 imágenes con una resolución de 512 × 512, con ψ = 0,5 y con poses aleatorias de la cabeza.  Se descargaron un total de 10.000 imágenes con una resolución de 1024 × 1024 píxeles de generate.photos[2]. Estas imágenes sintetizadas por GAN generalmente producen tomas de rostro de aspecto más profesional porque la red está entrenada en un conjunto de datos de imágenes de alta calidad grabadas en un estudio fotográfico.  2.3. GAN sin caras  Se descargaron un total de 5000 imágenes de StyleGAN 1[3] para cada una de las tres categorías que no son rostros: dormitorios, automóviles y gatos (los repositorios de otras versiones de StyleGAN no proporcionan imágenes para categorías distintas de rostros). Estas imágenes variaban en tamaño desde 512 × 384 (automóviles) hasta 256 × 256 (dormitorios y gatos).  2.4. Caras de difusión  Generamos 9.000 imágenes de cada versión de Stable Diffusion [26] (1, 2) [4]. A diferencia de las caras GAN descritas anteriormente, la síntesis de difusión de texto a imagen ofrece más control sobre la apariencia de las caras. Para garantizar la diversidad, 300 caras para cada uno de los 30 grupos demográficos con las indicaciones "una foto de un {joven, de mediana edad, mayor} {negro, del este de Asia, hispano, del sur de Asia, blanco} {mujer, hombre}". Estas imágenes se sintetizaron con una resolución de 512 × 512. Este conjunto de datos se seleccionó para eliminar fallas de síntesis obvias en las que, por ejemplo, la cara no era visible.  Se sintetizaron 900 imágenes adicionales a partir de la versión más reciente de Stable Diffusion (xl). Utilizando las mismas categorías demográficas que antes, se generaron 30 imágenes para cada una de las 30 categorías, cada una con una resolución de 768 × 768.  Generamos 9.000 imágenes a partir de DALL-E 2 [5], que constan de 300 imágenes para cada uno de los 30 grupos demográficos. Estas imágenes fueron sintetizadas con una resolución de 512×512 píxeles.  Se descargaron un total de 1000 imágenes de Midjourney[6] con una resolución de 512 × 512. Estas imágenes se seleccionaron manualmente para que constaran de una sola cara.  2.5. Difusión sin caras  Sintetizamos 1000 imágenes sin rostros de cada una de las dos versiones de Stable Diffusion (1, 2). Estas imágenes se generaron utilizando subtítulos aleatorios (generados por ChatGPT) y se revisaron manualmente para eliminar cualquier imagen que contenga una persona o un rostro. Estas imágenes fueron sintetizadas con una resolución de 600 × 600 píxeles. Se sintetizó un conjunto similar de 1.000 imágenes DALL-E 2 y 1.000 Midjourney con una resolución de 512 × 512.  2.6. Datos de capacitación y evaluación  Los conjuntos de imágenes enumerados anteriormente se dividen en entrenamiento y evaluación de la siguiente manera. Nuestro modelo (descrito en la Sección 3) se entrena en un subconjunto aleatorio de 30.000 rostros reales y 30.000 rostros generados por IA. Las caras generadas por IA se componen de un subconjunto aleatorio de 5250 StyleGAN 1, 5250 StyleGAN 2, 4500 StyleGAN 3, 3750 Stable Diffusion 1, 3750 Stable Diffusion 2 y 7500 imágenes DALL-E 2.  Evaluamos nuestro modelo con respecto a lo siguiente:  • Un conjunto de 5000 imágenes de rostros de los mismos motores de síntesis utilizados en el entrenamiento (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 y DALL-E 2).  • Un conjunto de 5.000 imágenes de rostros de motores de síntesis que no se utilizan en el entrenamiento (Generated.photos, EG3D, Stable Diffusion xl y Midjourney).  • Un conjunto de 3750 imágenes sin rostros de cada uno de los cinco motores de síntesis (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 y Midjourney).  • Un conjunto de 13.750 rostros reales.  Este documento está   bajo licencia CC 4.0. disponible en arxiv  [1] El parámetro StyleGAN ψ (normalmente en el rango [0, 1]) controla el truncamiento de los valores semilla en la representación del espacio latente utilizado para generar una imagen. Los valores más pequeños de ψ proporcionan una mejor calidad de imagen pero reducen la variedad facial. Un valor medio de ψ = 0,5 produce rostros relativamente libres de artefactos, al tiempo que permite variaciones en el género, la edad y el origen étnico en el rostro sintetizado.  [2] https://generated.photos/faces  [3] https://github.com/NVlabs/stylegan)  [4] https://github. com / Estabilidad - IA / StableDiffusion  [5] https://openai.com/dall-e-2  [6] https://www.midjourney.com

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

Este audio es producido en el idioma original de la historia!

Encontrar rostros generados por IA en la naturaleza: conjuntos de datos

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Crecimiento de las criptomonedas: creación de perfiles de usuarios eficaces

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Cómo mejorar su flujo de trabajo 10 veces: 17 aplicaciones esenciales

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps