paint-brush
야생에서 AI가 생성한 얼굴 찾기: 모델~에 의해@botbeat
172 판독값

야생에서 AI가 생성한 얼굴 찾기: 모델

너무 오래; 읽다

AI는 온라인 사기에 대비한 현실적인 가짜 얼굴을 만들 수 있습니다. 본 연구에서는 이미지에서 AI가 생성한 얼굴을 검출하는 방법을 제안합니다.
featured image - 야생에서 AI가 생성한 얼굴 찾기: 모델
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

저자:

(1) 곤잘로 J. 아니아노 포실(Gonzalo J. Aniano Porcile), LinkedIn;

(2) 잭 긴디, 링크드인;

(3) 시반시 문드라(Shivansh Mundra), 링크드인;

(4) 제임스 R. 버버스(James R. Verbus), 링크드인;

(5) Hany Farid, LinkedIn 및 캘리포니아 대학교 버클리 캠퍼스.

링크 표

3. 모델

AI가 생성한 얼굴과 실제 얼굴을 구별하기 위해 모델을 훈련합니다. 기본 모델은 EfficientNet-B1[7] 컨벌루션 신경망[30]입니다. 우리는 이 아키텍처가 다른 최첨단 아키텍처(Swin-T [22], Resnet50 [14], XceptionNet [7])에 비해 더 나은 성능을 제공한다는 것을 발견했습니다. EfficientNet-B1 네트워크에는 ImageNet1K 이미지 데이터세트[30]에서 사전 훈련된 780만 개의 내부 매개변수가 있습니다.


우리의 파이프라인은 (1) 이미지 전처리 단계; (2) 이미지 임베딩 단계; (3) 채점 단계. 모델은 컬러 이미지를 입력으로 사용하고 [0, 1] 범위의 숫자 점수를 생성합니다. 0에 가까운 점수는 이미지가 실제일 가능성이 있음을 나타내고, 1에 가까운 점수는 이미지가 AI에서 생성될 가능성이 있음을 나타냅니다.



표 2. 기준 훈련 및 평가 참양성(모든 합성 엔진(TPR)에서 평균을 낸 AI 생성 이미지를 올바르게 분류함) 각 조건에서 위양성률은 0.5%(실제 얼굴(FPR)을 잘못 분류함)입니다. 또한 2TP/(2TP + FP + FN)으로 정의되는 F1 점수도 보고됩니다. TP, FP, FN은 각각 참양성, 위양성, 위음성의 수를 나타냅니다. 엔진 내/엔진 외부는 훈련에 사용된 것과 동일하거나 다른 합성 엔진을 사용하여 이미지가 생성되었음을 나타냅니다.



이미지 전처리 단계에서는 입력 이미지의 크기를 512×512 픽셀의 해상도로 조정합니다. 이 크기가 조정된 컬러 이미지는 EfficientNet-B1 전이 학습 계층으로 전달됩니다. 채점 단계에서 전이 학습 계층의 출력은 ReLU 활성화 함수를 사용하여 각각 크기가 2,048인 두 개의 완전 연결 계층, 드롭아웃 확률이 0.8인 드롭아웃 계층, 시그모이드 활성화를 사용하는 최종 채점 계층에 공급됩니다. 680만 개의 학습 가능한 매개변수가 있는 점수 매기기 레이어만 조정됩니다. 훈련 가능한 가중치는 크기 32의 미니배치, 학습률 0.0001, 최대 10,000단계에 대해 훈련된 AdaGrad 알고리즘을 사용하여 최적화되었습니다. 60개의 NVIDIA A100 GPU가 포함된 클러스터가 모델 훈련에 사용되었습니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[7] 우리는 이전에 LinkedIn에서 운영한 EfficientNet 모델의 이전 버전을 설명하고 있으며 이후 새 모델로 대체되었습니다. 우리는 이 모델이 최신 모델이 아니라는 점을 알고 있지만 해당 모델은 더 이상 사용되지 않으므로 이제서야 이러한 결과를 보고할 수 있습니다.