paint-brush
Encontrando rostos gerados por IA na natureza: discussão, agradecimentos e referênciaspor@botbeat
121 leituras

Encontrando rostos gerados por IA na natureza: discussão, agradecimentos e referências

Muito longo; Para ler

A IA pode criar rostos falsos realistas para golpes online. Este trabalho propõe um método para detectar rostos gerados por IA em imagens.
featured image - Encontrando rostos gerados por IA na natureza: discussão, agradecimentos e referências
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

Autores:

(1) Gonzalo J. Aniano Porcile, LinkedIn;

(2) Jack Gindi, LinkedIn;

(3) Shivansh Mundra, LinkedIn;

(4) James R. Verbus, LinkedIn;

(5) Hany Farid, LinkedIn e Universidade da Califórnia, Berkeley.

Tabela de links

5. Discussão

Para muitos problemas de classificação de imagens, grandes modelos neurais – com dados adequadamente representativos – são atraentes por sua capacidade de aprender características discriminatórias. Esses modelos, no entanto, podem ser vulneráveis a ataques adversários [4]. Resta saber se nosso modelo é tão vulnerável quanto os modelos anteriores, nos quais quantidades imperceptíveis de ruído adversário confundem o modelo [3]. Em particular, resta saber se os aparentes artefactos estruturais ou semânticos que parecemos ter aprendido produzirão mais robustez a ataques adversários intencionais.


Em termos de ataques menos sofisticados, incluindo operações de lavagem como transcodificação e redimensionamento de imagens, temos


Figura 5. Exemplos de faces geradas por IA e seus gradientes integrados normalizados, revelando que nosso modelo está focado principalmente em regiões faciais: (a) uma média de 100 faces StyleGAN 2, (b) DALL-E 2, (c) Midjourney, (d,e) Difusão Estável 1,2.


mostrou que nosso modelo é resiliente em uma ampla gama de operações de lavagem.


A criação e detecção de conteúdo gerado por IA é inerentemente adversária, com idas e vindas um tanto previsíveis entre criador e detector. Embora possa parecer que a detecção é inútil, não é. Ao construir detectores continuamente, forçamos os criadores a continuar investindo tempo e custos para criar falsificações convincentes. E embora o criador suficientemente sofisticado provavelmente consiga contornar a maioria das defesas, o criador médio não o fará.


Ao operar em grandes plataformas online como a nossa, esta estratégia de mitigação – mas não de eliminação – é valiosa para criar espaços online mais seguros. Além disso, qualquer defesa bem-sucedida empregará não uma, mas muitas abordagens diferentes que exploram vários artefatos. Contornar todas essas defesas representará desafios significativos para o adversário. Ao aprender o que parece ser um artefato robusto que é resiliente em termos de resolução, qualidade e uma variedade de mecanismos de síntese, a abordagem descrita aqui adiciona uma nova ferramenta poderosa a um kit de ferramentas de defesa.

Reconhecimentos

Este trabalho é o produto de uma colaboração entre o professor Hany Farid e a equipe Trust Data do LinkedIn[10]. Agradecemos a Bohacek de Matya por sua ajuda na criação dos rostos gerados por IA. Agradecemos ao programa LinkedIn Scholars[11] por possibilitar esta colaboração. Agradecemos também a Ya Xu, Daniel Olmedilla, Kim Capps-Tanaka, Jenelle Bray, Shaunak Chatterjee, Vidit Jain, Ting Chen, Vipin Gupta, Dinesh Palanivelu, Milinda Lakkam e Natesh Pillai pelo apoio a este trabalho. Somos gratos a David Luebke, Margaret Albrecht, Edwin Nieda, Koki Nagano, George Chellapa, Burak Yoldemir e Ankit Patel da NVIDIA por facilitar nosso trabalho, disponibilizando publicamente o software de geração StyleGAN, modelos treinados e imagens sintetizadas, e por seu valioso sugestões.

Referências

[1] Estabilidade IA. https://estabilidade.ai. 1


[2] David Bau, Alex Andonian, Audrey Cui, YeonHwan Park, Ali Jahanian, Aude Oliva e Antonio Torralba. Pinte por palavra. arXiv:2103.10951, 2021. 1


[3] Nicholas Carlini e Hany Farid. Evitando detectores de imagens deepfake com ataques de caixa branca e preta. Em Anais da conferência IEEE/CVF sobre workshops de visão computacional e reconhecimento de padrões, páginas 658–659, 2020.7


[4] Nicholas Carlini e David Wagner. Para avaliar a robustez das redes neurais. No Simpósio IEEE sobre Segurança e Privacidade, páginas 39–57. IEEE, 2017. 7


[5] Lucy Chai, David Bau, Ser-Nam Lim e Phillip Isola. O que torna as imagens falsas detectáveis? Compreender propriedades que generalizam. Na Conferência Europeia sobre Visão Computacional, páginas 103–120, 2020. 2


[6] Eric R Chan, Connor Z Lin, Matthew A Chan, Koki Nagano, Boxiao Pan, Shalini De Mello, Orazio Gallo, Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al. Redes adversárias generativas 3D com reconhecimento de geometria eficientes. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 16123–16133, 2022. 2


[7] François Chollet. Xception: Aprendizado profundo com convoluções separáveis em profundidade. arXiv:1610.02357, 2017. 4


[8] Riccardo Corvi, Davide Cozzolino, Giada Zingarini, Giovanni Poggi, Koki Nagano e Luisa Verdoliva. Na detecção de imagens sintéticas geradas por modelos de difusão. Na Conferência Internacional sobre Acústica, Fala e Processamento de Sinais, páginas 1–5. IEEE, 2023. 2, 5, 7


[9] Chengdong Dong, Ajay Kumar e Eryun Liu. Pense duas vezes antes de detectar imagens falsas geradas por GAN a partir de suas impressões de domínio espectral. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 7865–7874, 2022. 2


[10]Hany Farid. Criar, usar, usar indevidamente e detectar deepfakes. Jornal de Confiança e Segurança Online, 1(4), 2022. 2


[11] Joel Frank, Thorsten Eisenhofer, Lea Schonherr, Asja Fischer, Dorothea Kolossa e Thorsten Holz. Aproveitando a análise de frequência para reconhecimento profundo de imagens falsas. arXiv:2003.08685, 2020. 2


[12] Diego Gragnaniello, Davide Cozzolino, Francesco Marra, Giovanni Poggi e Luisa Verdoliva. As imagens geradas pelo GAN são fáceis de detectar? Uma análise crítica do estado de espírito. Na Conferência Internacional IEEE sobre Multimídia e Expo, páginas 1–6, 2021. 2


[13] Hui Guo, Shu Hu, Xin Wang, Ming-Ching Chang e Siwei Lyu. Os olhos dizem tudo: formas irregulares das pupilas revelam rostos gerados por gan. Na Conferência Internacional IEEE sobre Acústica, Fala e Processamento de Sinais, páginas 2904–2908. IEEE, 2022. 2


[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren e Jian Sun. Aprendizado residual profundo para reconhecimento de imagens. arXiv: 1512.03385, 2015. 4


[15] Shu Hu, Yuezun Li e Siwei Lyu. Expondo faces geradas por GAN usando realces especulares corneanos inconsistentes. Na Conferência Internacional IEEE sobre Acústica, Fala e Processamento de Sinais, páginas 2500–2504. IEEE, 2021. 2


[16] Tero Karras, Timo Aila, Samuli Laine e Jaakko Lehtinen. Crescimento progressivo de GANs para melhor qualidade, estabilidade e variação. arXiv:1710.10196, 2017. 1


[17] Tero Karras, Miika Aittala, Samuli Laine, Erik Hark ¨ onen, ¨ Janne Hellsten, Jaakko Lehtinen e Timo Aila. Redes adversárias generativas sem alias. Em Sistemas de Processamento de Informação Neural, 2021. 1, 2


[18] Tero Karras, Samuli Laine e Timo Aila. Uma arquitetura geradora baseada em estilo para redes adversárias generativas. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 4401–4410, 2019. 1, 2


[19] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen e Timo Aila. Analisando e melhorando a qualidade da imagem do StyleGAN. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 8110–8119, 2020. 2


[20] David C Knill, David Field e Daniel Kerstent. Discriminação humana de imagens fractais. JOSA A, 7(6):1113–1123, 1990. 1


[21] Bo Liu, Fan Yang, Xiuli Bi, Bin Xiao, Weisheng Li e Xinbo Gao. Detectando imagens geradas por imagens reais. Na Conferência Europeia sobre Visão Computacional, páginas 95–110. Springer, 2022. 2


[22] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin e Baining Guo. Transformador Swin: Transformador de visão hierárquica usando janelas deslocadas. Na Conferência Internacional IEEE/CVF sobre Visão Computacional, 2021. 4


[23] Shivansh Mundra, Gonzalo J. Aniano Porcile, Smit Marvaniya, James R. Verbus e Hany Farid. Expondo fotos de perfil gangeradas a partir de incorporações compactas. Na Conferência Internacional sobre Workshop de Visão Computacional e Reconhecimento de Padrões, 2023. 2, 7


[24] Sophie J Nightingale e Hany Farid. Rostos sintetizados por IA são indistinguíveis de rostos reais e mais confiáveis. Anais da Academia Nacional de Ciências, 119(8):e2120481119, 2022. 2


[25] Javier Portilla e Eero P Simoncelli. Um modelo de textura paramétrica baseado em estatísticas conjuntas de coeficientes wavelet complexos. Jornal internacional de visão computacional, 40:49–70, 2000. 1


[26] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser e Bjorn Ommer. Síntese de imagens de alta resolução com modelos de difusão latente. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 10684–10695, 2022. 1, 4


[27] Pawan Sinha, Benjamin Balas, Yuri Ostrovsky e Richard Russell. Reconhecimento facial por humanos: Dezenove resultados que todos os pesquisadores de visão computacional deveriam conhecer. Anais do IEEE, 94(11):1948–1962, 2006.6


[28] Mukund Sundararajan, Ankur Taly e Qiqi Yan. Atribuição axiomática para redes profundas. arXiv: 1703.01365, 2017. 6


[29] Chuangchuang Tan, Yao Zhao, Shikui Wei, Guanghua Gu e Yunchao Wei. Aprendizagem em gradientes: representação generalizada de artefatos para detecção de imagens geradas por GAN. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 12105–12114, 2023. 2


[30] Mingxing Tan e Quoc V. Le. Efficientnet: Repensando o dimensionamento de modelos para redes neurais convolucionais. arXiv: 1905.11946, 2020. 4


[31]Peter Thompson. Margaret Thatcher: Uma nova ilusão. Percepção, 9(4):483–484, 1980. 6


[32] Sheng-Yu Wang, Oliver Wang, Richard Zhang, Andrew Owens e Alexei A Efros. As imagens geradas pela CNN são surpreendentemente fáceis de detectar... por enquanto. Na Conferência Internacional sobre Visão Computacional e Reconhecimento de Padrões, páginas 8695–8704, 2020. 2


[33] Xin Yang, Yuezun Li e Siwei Lyu. Expondo deep fakes usando poses de cabeça inconsistentes. Na Conferência Internacional IEEE sobre Acústica, Fala e Processamento de Sinais, páginas 8261–8265. IEEE, 2019. 2


[34] Xin Yang, Yuezun Li, Honggang Qi e Siwei Lyu. Expondo rostos sintetizados por GAN usando locais de referência. No Workshop ACM sobre ocultação de informações e segurança multimídia, páginas 113–118, 2019. 2


[35] Xu Zhang, Svebor Karaman e Shih-Fu Chang. Detectando e simulando artefatos em imagens falsas GAN. No Workshop Internacional IEEE sobre Análise Forense e Segurança da Informação, páginas 1–6, 2019. 2


Este artigo está disponível no arxiv sob licença CC 4.0.


[10] O modelo descrito neste trabalho não é usado para agir contra nenhum membro do LinkedIn.


[11] https://careers.linkedin.com/scholars