저자:
(1) 곤잘로 J. 아니아노 포실(Gonzalo J. Aniano Porcile), LinkedIn;
(2) 잭 긴디, 링크드인;
(3) 시반시 문드라(Shivansh Mundra), 링크드인;
(4) 제임스 R. 버버스(James R. Verbus), 링크드인;
(5) Hany Farid, LinkedIn 및 캘리포니아 대학교 버클리 캠퍼스.
우리의 교육 및 평가는 5개의 서로 다른 GAN 및 5개의 확산 합성 엔진에 걸쳐 120,000개의 실제 LinkedIn 프로필 사진과 105,900개의 AI 생성 얼굴로 구성된 18개의 데이터 세트를 활용합니다. AI가 생성한 이미지는 얼굴이 있는 이미지와 얼굴이 없는 이미지의 두 가지 주요 범주로 구성됩니다. 실제 및 합성 컬러(RGB) 이미지는 원래 해상도에서 512 × 512 픽셀로 크기가 조정됩니다. 표 1에는 이러한 이미지에 대한 설명이 나와 있으며 그림 2에는 다음에 설명된 각 AI 생성 범주의 대표적인 예가 나와 있습니다.
120,000장의 실제 사진은 2019년 1월 1일부터 2022년 12월 1일 사이에 업로드된 공개적으로 액세스 가능한 프로필 사진이 있는 LinkedIn 사용자로부터 샘플링되었습니다. 이 계정은 최소 30일 동안 플랫폼에서 활동(예: 로그인, 게시, 메시지 보내기, 검색)을 보여주었습니다. ) 가짜 계정 탐지기를 작동하지 않고. 계정의 연령과 활동을 고려하면 이 사진이 진짜라고 확신할 수 있습니다. 이러한 이미지는 해상도와 품질이 매우 다양했습니다. 대부분의 이미지는 한 사람으로 구성된 표준 프로필 사진이지만 일부에는 얼굴이 포함되어 있지 않습니다. 이와 대조적으로 AI가 생성한 모든 이미지(다음 설명)는 얼굴로 구성됩니다. 실제 이미지와 가짜 이미지의 차이점을 섹션 4에서 다시 살펴보겠습니다.
도 2, 3에서는 컬러 영상을 1024×1024 픽셀의 해상도와 ψ = 0.5로 합성하였다. [1] StyleGAN의 3D 버전인 EG3D(Efficient Geometry-aware 3D Generative Adversarial Networks)의 경우 ψ = 0.5, 무작위 머리 포즈를 사용하여 512×512의 해상도로 10,000개의 이미지를 합성했습니다.
1024 × 1024 픽셀 해상도의 총 10,000개 이미지가 생성된.photos[2]에서 다운로드되었습니다. 이러한 GAN 합성 이미지는 일반적으로 네트워크가 사진 스튜디오에서 기록된 고품질 이미지 데이터 세트에 대해 훈련되었기 때문에 보다 전문적으로 보이는 얼굴 사진을 생성합니다.
침실, 자동차, 고양이 등 얼굴이 아닌 세 가지 카테고리 각각에 대해 총 5,000개의 StyleGAN 1 이미지가 다운로드되었습니다[3](다른 StyleGAN 버전의 리포지토리는 얼굴 이외의 카테고리에 대한 이미지를 제공하지 않음). 이러한 이미지의 크기는 512 × 384(자동차)부터 256 × 256(침실 및 고양이)까지 다양했습니다.
각 Stable Diffusion[26] 버전(1, 2)[4]에서 9,000개의 이미지를 생성했습니다. 위에서 설명한 GAN 얼굴과 달리 텍스트-이미지 확산 합성을 통해 얼굴 모양을 더 효과적으로 제어할 수 있습니다. 다양성을 보장하기 위해 "{청년, 중년, 노인} {흑인, 동아시아인, 히스패닉, 남아시아인, 백인} {여성, 남성}의 사진"이라는 메시지와 함께 30개의 인구통계 각각에 대해 300개의 얼굴이 있습니다. 이러한 이미지는 512 × 512의 해상도로 합성되었습니다. 이 데이터 세트는 예를 들어 얼굴이 보이지 않는 명백한 합성 실패를 제거하기 위해 선별되었습니다.
Stable Diffusion(xl)의 최신 버전에서 추가로 900개의 이미지가 합성되었습니다. 이전과 동일한 인구통계 카테고리를 사용하여 30개 카테고리 각각에 대해 각각 768 × 768의 해상도로 30개의 이미지가 생성되었습니다.
우리는 DALL-E 2[5]에서 30개의 인구통계 그룹 각각에 대해 300개의 이미지로 구성된 9,000개의 이미지를 생성했습니다. 이 이미지는 512×512 픽셀의 해상도로 합성되었습니다.
총 1,000개의 Midjourney[6] 이미지가 512 × 512의 해상도로 다운로드되었습니다. 이 이미지는 단일 얼굴로만 구성되도록 수동으로 선별되었습니다.
두 버전의 Stable Diffusion(1, 2) 각각에서 얼굴이 아닌 이미지 1,000장을 합성했습니다. 이러한 이미지는 무작위 캡션(ChatGPT에서 생성)을 사용하여 생성되었으며 사람이나 얼굴이 포함된 이미지를 제거하기 위해 수동으로 검토되었습니다. 이 이미지는 600×600 픽셀의 해상도로 합성되었습니다. 1,000개의 DALL-E 2 이미지와 1,000개의 Midjourney 이미지로 구성된 유사한 세트가 512 × 512의 해상도로 합성되었습니다.
위에 열거된 이미지 세트는 다음과 같이 학습 및 평가로 구분됩니다. 우리 모델(섹션 3에 설명됨)은 30,000개의 실제 얼굴과 30,000개의 AI 생성 얼굴의 무작위 하위 집합에 대해 훈련됩니다. AI가 생성한 얼굴은 5,250개의 StyleGAN 1, 5,250개의 StyleGAN 2, 4,500개의 StyleGAN 3, 3,750개의 Stable Diffusion 1, 3,750개의 Stable Diffusion 2 및 7,500개의 DALL-E 2 이미지의 무작위 하위 집합으로 구성됩니다.
우리는 다음을 기준으로 모델을 평가합니다.
• 훈련에 사용된 것과 동일한 합성 엔진(StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 및 DALL-E 2)에서 나온 5,000개의 얼굴 이미지 세트.
• 훈련에 사용되지 않는 합성 엔진의 얼굴 이미지 5,000개 세트(Generated.photos, EG3D, Stable Diffusion xl 및 Midjourney).
• 5개 합성 엔진(StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 및 Midjourney) 각각의 3,750개 비얼굴 이미지 세트.
• 13,750개의 실제 얼굴 세트.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
[1] StyleGAN 매개변수 ψ(일반적으로 [0, 1] 범위)는 이미지를 생성하는 데 사용되는 잠재 공간 표현에서 시드 값의 잘림을 제어합니다. ψ 값이 작을수록 이미지 품질은 향상되지만 얼굴의 다양성은 줄어듭니다. ψ = 0.5의 중간 범위 값은 상대적으로 인공물이 없는 얼굴을 생성하는 동시에 합성된 얼굴의 성별, 연령 및 민족성에 대한 변화를 허용합니다.
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https : // github . com / 안정성 - AI / StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com