Autores:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn e Universidade da Califórnia, Berkeley.
Nosso desempenho básico de treinamento e avaliação é mostrado na Tabela 2. A avaliação é dividida com base no fato de as imagens de avaliação conterem um rosto ou não (as imagens de treinamento continham apenas rostos) e se as imagens foram geradas com o mesmo (no mecanismo) ou motores de síntese diferentes (fora do motor) como aqueles usados no treinamento (ver Seção 2.6). A fim de fornecer uma comparação direta da taxa de verdadeiros positivos[8] (TPR) para o treinamento e avaliação, ajustamos o limite de classificação final para produzir uma taxa de falsos positivos[9] (FPR) de 0,5%.
Com um FPR fixo de 0,5%, os rostos gerados por IA são classificados corretamente no treinamento e na avaliação a uma taxa de 98%. Em diferentes mecanismos de síntese (StyleGAN 1,2,3, Stable Diffusion 1,2 e DALL-E 2) usados para treinamento, o TPR variou um pouco de um mínimo de 93,3% para Stable Diffusion 1 a um máximo de 99,5% para StyleGAN 2 e 98,9% para StyleGAN1, 99,9% para StyleGAN3, 94,9% para Stable Diffusion 2 e 99,2% para DALL-E 2.
Para faces geradas por mecanismos de síntese não usados em
treinamento (fora do motor), o TPR cai para 84,5% no mesmo FPR, mostrando uma generalização fora do domínio boa, mas não perfeita. Entre os diferentes mecanismos de síntese não utilizados no treinamento, o TPR variou amplamente, com um mínimo de 19,4% para Midjourney, um máximo de 99,5% para EG3D e 95,4% para fotos geradas. Nosso classificador generaliza bem em alguns casos e falha em outros. Esta limitação, no entanto, provavelmente pode ser mitigada pela incorporação dessas imagens fora do motor no treinamento inicial.
Num resultado particularmente surpreendente, os não-rostos – gerados pelos mesmos motores de síntese utilizados no treino – são todos classificados incorretamente. Provavelmente, isso ocorre porque algumas de nossas imagens reais contêm não-rostos (consulte a Seção 2.1), enquanto todas as imagens geradas por IA contêm rostos. Como estamos interessados apenas em detectar rostos falsos usados para criar uma conta, não vemos isso como uma grande limitação. Este resultado também sugere que nosso classificador se apegou a uma propriedade específica de uma face gerada por IA e não a algum artefato de baixo nível da síntese subjacente (por exemplo, uma impressão digital de ruído [8]). Na Seção 4.1, fornecemos evidências adicionais para apoiar esta hipótese.
Os resultados de linha de base acima são baseados no treinamento e avaliação de imagens com resolução de 512×512 pixels. Mostrado na Figura 3 (a) (azul sólido) está o TPR quando as imagens de treinamento são reduzidas para uma resolução mais baixa (256, 128, 64 e 32) e depois aumentadas para 512 para classificação. Com o mesmo FPR de 0,5%, o TPR para classificar um rosto gerado por IA cai rapidamente de uma linha de base de 98,0%.
A taxa de verdadeiro positivo, no entanto, melhora significativamente quando o modelo é treinado em imagens com uma resolução de N × N (N = 32, 64, 128 ou 256) e depois avaliado em relação ao mesmo TPR visto no treinamento, Figura 3 (a ) (tracejado em vermelho). Como antes, a taxa de falsos positivos é fixada em 0,5%. Aqui vemos que o TPR em uma resolução de 128 × 128 permanece relativamente alto (91,9%) e degrada apenas na resolução mais baixa de 32 × 32 (44,1%). A capacidade de detectar rostos gerados por IA mesmo em resoluções relativamente baixas sugere que nosso modelo não se agarrou a um artefato de baixo nível que não sobreviveria a esse nível de redução da amostragem.
Na Figura 3(b) é mostrado o TPR do classificador, treinado em imagens PNG e JPEG não compactadas de qualidade variável, avaliado em relação a imagens em uma variedade de qualidades JPEG (variando da qualidade mais alta de 100 até a qualidade mais baixa de 20). Aqui vemos que o TPR para identificar um rosto gerado por IA (FPR é de 0,5%) degrada lentamente com um TPR de 94,3% na qualidade 80 e um TPR de 88,0% na qualidade 60. Novamente, a capacidade de detectar rostos gerados por IA em a presença de artefatos de compressão JPEG sugere que nosso modelo não se prendeu a um artefato de baixo nível.
Conforme mostrado na Seção 4, nosso classificador é altamente capaz de distinguir faces de IA geradas a partir de uma variedade de mecanismos de síntese diferentes. Este classificador, no entanto, é limitado apenas a faces, Tabela 2. Ou seja, quando apresentadas imagens não faciais dos mesmos mecanismos de síntese usados no treinamento, o classificador falha completamente em classificá-las como geradas por IA.
Postulamos que nosso classificador pode ter aprendido um artefato de nível semântico. Esta afirmação é parcialmente apoiada pelo fato de que nosso classificador permanece altamente preciso mesmo em resoluções tão baixas quanto 128×128 pixels, Figura 3(a), e permanece razoavelmente preciso mesmo diante de uma compressão JPEG bastante agressiva, Figura 3(b) . Aqui fornecemos mais evidências para apoiar esta afirmação de que aprendemos um artefato de nível estrutural ou semântico.
Está bem estabelecido que, embora o reconhecimento de objetos de uso geral no sistema visual humano seja altamente robusto para orientação de objetos, pose e distorção de perspectiva, o reconhecimento e processamento de rosto são menos robustos até mesmo para uma simples inversão [27]. Este efeito é deliciosamente ilustrado na clássica ilusão de Margaret Thatcher [31]. As faces na linha superior da Figura 4 são versões invertidas daquelas na linha inferior. Na versão à direita, os olhos e a boca estão invertidos em relação ao rosto. Este grotesco coquetel de características é óbvio no rosto ereto, mas não no rosto invertido.
Nós nos perguntamos se nosso classificador teria dificuldade para classificar
faces verticalmente invertidas. As mesmas 10.000 imagens de validação (Seção 2.6) foram invertidas e reclassificadas. Com o mesmo FPR fixo de 0,5%, o TPR caiu 20 pontos percentuais, passando de 98,0% para 77,7%.
Em comparação, inverter as imagens de validação apenas no eixo vertical (ou seja, virar da esquerda para a direita) não produz nenhuma alteração no TPR de 98,0% com o mesmo FPR de 0,5%. Este par de resultados, combinado com a robustez da resolução e qualidade de compressão, sugere que nosso modelo não se prendeu a um artefato de baixo nível e, em vez disso, pode ter descoberto uma propriedade estrutural ou semântica que distingue faces geradas por IA de faces reais.
Exploramos ainda mais a natureza do nosso classificador usando o método de gradientes integrados [28]. Este método atribui as previsões feitas por uma rede profunda aos seus recursos de entrada. Como este método pode ser aplicado sem quaisquer alterações no modelo treinado, ele nos permite calcular a relevância de cada pixel da imagem de entrada em relação à decisão do modelo.
É mostrada na Figura 5 (a) a magnitude não sinalizada dos gradientes integrados normalizados (no intervalo [0, 1]) com média de 100 imagens StyleGAN 2 (como as faces geradas pelo StyleGAN estão todas alinhadas, o gradiente médio é consistente com as características faciais em todas as imagens). Na Figura 5 (b) - (e) são mostradas imagens representativas e seus gradientes integrados normalizados para uma imagem gerada por DALL-2, Midjourney, Stable Diffusion 1 e Stable Diffusion 2. Em todos os casos, vemos que os pixels mais relevantes , correspondendo a gradientes maiores, concentram-se principalmente na região facial e em outras áreas da pele.
Por se concentrar especificamente na detecção de faces geradas por GAN, o trabalho de [23] está mais diretamente relacionado ao nosso. Neste trabalho, os autores mostram que um modelo linear de baixa dimensão captura o alinhamento facial comum das faces geradas pelo StyleGAN. Avaliado em relação a 3.000 faces StyleGAN, seu modelo classifica corretamente 99,5% das faces GAN com 1% das faces reais classificadas incorretamente como IA. Em comparação, alcançamos um TPR semelhante, mas com um FPR inferior de 0,5%.
Ao contrário de nossa abordagem, no entanto, que se generaliza para outras faces GAN como generate.photos, o TPR para este trabalho anterior cai para 86,0% (com o mesmo FPR de 1%). Além disso, este trabalho anterior não consegue detectar faces baseadas em difusão porque essas faces simplesmente não contêm o mesmo artefato de alinhamento que as faces StyleGAN. Em comparação, nossa técnica generaliza-se para faces geradas por GAN e por difusão e para motores de síntese não vistos no treinamento.
Também avaliamos um modelo recente de última geração que explora a presença de artefatos de Fourier em imagens geradas por IA [8]. Em nosso conjunto de dados de avaliação de faces reais e geradas por IA no mecanismo, este modelo classifica corretamente apenas 23,8% das faces geradas por IA no mesmo FPR de 0,5%. Este TPR é consideravelmente inferior ao TPR do nosso modelo de 98,0% e também inferior ao TPR de 90% relatado em [8]. Nossa hipótese é que essa discrepância se deva às imagens reais mais diversas e desafiadoras de nosso conjunto de dados.
Este artigo está disponível no arxiv sob licença CC 4.0.
[8] A taxa de verdadeiros positivos (TPR) é a fração de fotos geradas por IA que são classificadas corretamente.
[9] A taxa de falsos positivos (FPR) é a fração de fotos reais que são classificadas incorretamente.