Autores:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn e Universidade da Califórnia, Berkeley.
Nosso treinamento e avaliação utilizam 18 conjuntos de dados que consistem em 120.000 fotos reais de perfil do LinkedIn e 105.900 rostos gerados por IA, abrangendo cinco GAN diferentes e cinco mecanismos de síntese de difusão diferentes. As imagens geradas por IA consistem em duas categorias principais, aquelas com rosto e aquelas sem. Imagens em cores reais e sintetizadas (RGB) são redimensionadas de sua resolução original para 512 × 512 pixels. A Tabela 1 mostra uma contabilização dessas imagens e a Figura 2 mostra exemplos representativos de cada uma das categorias geradas por IA, conforme descrito a seguir.
As 120.000 fotos reais foram amostradas de usuários do LinkedIn com fotos de perfil acessíveis ao público carregadas entre 1º de janeiro de 2019 e 1º de dezembro de 2022. Essas contas mostraram atividade na plataforma por pelo menos 30 dias (por exemplo, logado, postado, enviado mensagem, pesquisado ) sem acionar nenhum detector de conta falsa. Dada a idade e atividade nas contas, podemos ter certeza de que essas fotos são reais. Essas imagens tinham resolução e qualidade amplamente variadas. Embora a maioria dessas imagens sejam fotos de perfil padrão de uma única pessoa, algumas não contêm um rosto. Em contraste, todas as imagens geradas por IA (descritas a seguir) consistem em um rosto. Revisitaremos essa diferença entre imagens reais e falsas na Seção 4.
2 e 3, imagens coloridas foram sintetizadas com resolução de 1024×1024 pixels e com ψ = 0,5. [1] Para EG3D (Efficient Geometry-aware 3D Generative Adversarial Networks), a chamada versão 3D do StyleGAN, sintetizamos 10.000 imagens com uma resolução de 512×512, com ψ = 0,5, e com poses aleatórias de cabeça.
Um total de 10.000 imagens com resolução de 1024 × 1024 pixels foram baixadas de generate.photos[2]. Essas imagens sintetizadas por GAN geralmente produzem fotos com aparência mais profissional porque a rede é treinada em um conjunto de dados de imagens de alta qualidade gravadas em um estúdio fotográfico.
Um total de 5.000 imagens do StyleGAN 1 foram baixadas[3] para cada uma das três categorias não faciais: quartos, carros e gatos (os repositórios para outras versões do StyleGAN não fornecem imagens para outras categorias além de rostos). Essas imagens variavam em tamanho de 512×384 (carros) a 256×256 (quartos e gatos).
Geramos 9.000 imagens de cada versão do Stable Diffusion [26] (1, 2) [4]. Ao contrário das faces GAN descritas acima, a síntese de difusão de texto para imagem oferece mais controle sobre a aparência das faces. Para garantir a diversidade, 300 rostos para cada um dos 30 dados demográficos com as instruções “uma foto de um {jovem, de meia-idade, mais velho} {negro, do leste asiático, hispânico, sul-asiático, branco} {mulher, homem}”. Essas imagens foram sintetizadas com uma resolução de 512 × 512. Este conjunto de dados foi selecionado para remover falhas óbvias de síntese nas quais, por exemplo, o rosto não estava visível.
Outras 900 imagens foram sintetizadas a partir da versão mais recente do Stable Diffusion (xl). Usando as mesmas categorias demográficas de antes, foram geradas 30 imagens para cada uma das 30 categorias, cada uma com resolução de 768 × 768.
Geramos 9.000 imagens do DALL-E 2 [5], consistindo de 300 imagens para cada um dos 30 grupos demográficos. Essas imagens foram sintetizadas com resolução de 512×512 pixels.
Um total de 1.000 imagens Midjourney[6] foram baixadas com uma resolução de 512 × 512. Essas imagens foram selecionadas manualmente para consistir em apenas um único rosto.
Sintetizamos 1.000 imagens não faciais de cada uma das duas versões do Stable Diffusion (1, 2). Essas imagens foram geradas usando legendas aleatórias (geradas pelo ChatGPT) e revisadas manualmente para remover quaisquer imagens contendo uma pessoa ou rosto. Essas imagens foram sintetizadas com resolução de 600 × 600 pixels. Um conjunto semelhante de 1.000 imagens DALL-E 2 e 1.000 imagens Midjourney foram sintetizadas com uma resolução de 512 × 512.
Os conjuntos de imagens enumerados acima são divididos em treinamento e avaliação como segue. Nosso modelo (descrito na Seção 3) é treinado em um subconjunto aleatório de 30.000 faces reais e 30.000 faces geradas por IA. As faces geradas por IA são compostas por um subconjunto aleatório de 5.250 StyleGAN 1, 5.250 StyleGAN 2, 4.500 StyleGAN 3, 3.750 Stable Diffusion 1, 3.750 Stable Diffusion 2 e 7.500 imagens DALL-E 2.
Avaliamos nosso modelo em relação ao seguinte:
• Um conjunto de 5.000 imagens faciais dos mesmos mecanismos de síntese usados no treinamento (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 e DALL-E 2).
• Um conjunto de 5.000 imagens faciais de mecanismos de síntese não utilizados em treinamento (Generated.photos, EG3D, Stable Diffusion xl e Midjourney).
• Um conjunto de 3.750 imagens não faciais de cada um dos cinco mecanismos de síntese (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 e Midjourney).
• Um conjunto de 13.750 rostos reais.
Este artigo está disponível no arxiv sob licença CC 4.0.
[1] O parâmetro StyleGAN ψ (normalmente no intervalo [0, 1]) controla o truncamento dos valores iniciais na representação do espaço latente usado para gerar uma imagem. Valores menores de ψ proporcionam melhor qualidade de imagem, mas reduzem a variedade facial. Um valor intermediário de ψ = 0,5 produz faces relativamente livres de artefatos, ao mesmo tempo que permite variação de gênero, idade e etnia na face sintetizada.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https://github. com / Estabilidade - AI / Difusão Estável
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com