Yazarlar:
(1) Gonzalo J. Aniano Porcile, LinkedIn;
(2) Jack Gindi, LinkedIn;
(3) Shivansh Mundra, LinkedIn;
(4) James R. Verbus, LinkedIn;
(5) Hany Farid, LinkedIn ve Kaliforniya Üniversitesi, Berkeley.
Eğitim ve değerlendirmemiz, 120.000 gerçek LinkedIn profil fotoğrafı ve beş farklı GAN ve beş farklı difüzyon sentezi motorunu kapsayan 105.900 yapay zeka tarafından oluşturulan yüzden oluşan 18 veri setinden yararlanıyor. Yapay zeka tarafından oluşturulan görüntüler, yüzü olan ve olmayan olmak üzere iki ana kategoriden oluşuyor. Gerçek ve sentezlenmiş renkli (RGB) görüntüler, orijinal çözünürlüklerinden 512 × 512 piksele yeniden boyutlandırılır. Tablo 1'de bu görüntülerin bir açıklaması gösterilmektedir ve Şekil 2'de, daha sonra açıklanacağı üzere yapay zeka tarafından oluşturulan kategorilerin her birinden temsili örnekler gösterilmektedir.
1 Ocak 2019 ile 1 Aralık 2022 tarihleri arasında yüklenen, herkese açık profil fotoğraflarına sahip LinkedIn kullanıcılarından 120.000 gerçek fotoğraf örneklendi. Bu hesaplar, platformda en az 30 gün boyunca etkinlik gösterdi (ör. oturum açma, gönderi paylaşma, mesaj gönderme, arama yapma) ) herhangi bir sahte hesap dedektörünü tetiklemeden. Hesapların yaşı ve etkinliği göz önüne alındığında, bu fotoğrafların gerçek olduğundan emin olabiliriz. Bu görüntüler çok çeşitli çözünürlük ve kaliteye sahipti. Bu görsellerin çoğu tek bir kişiden oluşan standart profil fotoğrafları olsa da bazılarında yüz bulunmuyor. Buna karşılık, yapay zeka tarafından oluşturulan görüntülerin tümü (daha sonra anlatılacaktır) bir yüzden oluşur. Gerçek ve sahte görüntüler arasındaki bu farka Bölüm 4'te tekrar değineceğiz.
Şekil 2 ve 3'te renkli görüntüler 1024×1024 piksel çözünürlükte ve ψ = 0,5 ile sentezlenmiştir. [1] StyleGAN'ın 3D versiyonu olarak adlandırılan EG3D (Etkili Geometriye Duyarlı 3D Üretken Çekişmeli Ağlar) için, 512×512 çözünürlükte, ψ = 0,5 ve rastgele kafa pozlarıyla 10.000 görüntüyü sentezledik.
created.photos'tan[2] 1024 × 1024 piksel çözünürlükte toplam 10.000 görüntü indirildi. Ağ, bir fotoğraf stüdyosunda kaydedilen yüksek kaliteli görüntülerden oluşan bir veri kümesi üzerinde eğitildiğinden, GAN ile sentezlenen bu görüntüler genellikle daha profesyonel görünümlü vesikalık fotoğraflar üretir.
Yüz olmayan üç kategorinin her biri için toplam 5.000 StyleGAN 1 görüntüsü indirildi[3]: yatak odaları, arabalar ve kediler (diğer StyleGAN sürümlerinin depoları, yüzler dışındaki kategoriler için görseller sağlamamaktadır). Bu görsellerin boyutları 512 × 384 (arabalar) ile 256 × 256 (yatak odaları ve kediler) arasında değişiyordu.
Her Stabil Difüzyon [26] versiyonundan (1, 2)[4] 9.000 görüntü oluşturduk. Yukarıda açıklanan GAN yüzlerinin aksine, metinden görüntüye difüzyon sentezi, yüzlerin görünümü üzerinde daha fazla kontrol sağlar. Çeşitliliği sağlamak amacıyla, 30 demografik grubun her biri için 300 yüz ve "{genç, orta yaşlı, yaşlı} {siyah, doğu asyalı, İspanyol, güney asyalı, beyaz} {kadın, erkek} fotoğrafı." Bu görüntüler 512 × 512 çözünürlükte sentezlendi. Bu veri kümesi, örneğin yüzün görünmediği bariz sentez hatalarını ortadan kaldırmak için düzenlendi.
Stable Diffusion'ın (xl) en son sürümünden ilave 900 görüntü sentezlendi. Öncekiyle aynı demografik kategorileri kullanarak, 30 kategorinin her biri için her biri 768 × 768 çözünürlükte 30 görüntü oluşturuldu.
DALL-E 2'den [5], 30 demografik grubun her biri için 300 görüntüden oluşan 9.000 görüntü oluşturduk. Bu görüntüler 512×512 piksel çözünürlükte sentezlendi.
512 × 512 çözünürlükte toplam 1.000 Yolculuk Ortası[6] görüntüsü indirildi. Bu görüntüler yalnızca tek bir yüzden oluşacak şekilde manuel olarak düzenlendi.
Stable Diffusion'ın (1, 2) iki versiyonunun her birinden yüz olmayan 1000 görüntüyü sentezledik. Bu görüntüler rastgele altyazılar (ChatGPT tarafından oluşturulan) kullanılarak oluşturuldu ve bir kişiyi veya yüzü içeren tüm görüntüleri kaldırmak için manuel olarak incelendi. Bu görüntüler 600×600 piksel çözünürlükte sentezlendi. 1.000 DALL-E 2 ve 1.000 Midjourney görüntüsünden oluşan benzer bir set, 512 × 512 çözünürlükte sentezlendi.
Yukarıda sıralanan görüntü kümeleri aşağıdaki gibi eğitim ve değerlendirmeye ayrılmıştır. Modelimiz (Bölüm 3'te açıklanmıştır) 30.000 gerçek yüz ve 30.000 yapay zeka tarafından oluşturulan yüzden oluşan rastgele bir alt küme üzerinde eğitilir. Yapay zeka tarafından oluşturulan yüzler, 5.250 StyleGAN 1, 5.250 StyleGAN 2, 4.500 StyleGAN 3, 3.750 Stabil Difüzyon 1, 3.750 Stabil Difüzyon 2 ve 7.500 DALL-E 2 görüntüsünden oluşan rastgele bir alt kümeden oluşuyor.
Modelimizi aşağıdakilere göre değerlendiriyoruz:
• Eğitimde kullanılan aynı sentez motorlarından (StyleGAN 1, StyleGAN 2, StyleGAN 3, Stable Diffusion 1, Stable Diffusion 2 ve DALL-E 2) 5.000 yüz görüntüsünden oluşan bir set.
• Eğitimde kullanılmayan sentez motorlarından alınan 5.000 yüz görüntüsünden oluşan bir set (Generate.photos, EG3D, Stable Diffusion xl ve Midjourney).
• Beş sentez motorunun her birinden (StyleGAN 1, DALL-E 2, Stable Diffusion 1, Stable Diffusion 2 ve Midjourney) 3.750 yüz olmayan görüntüden oluşan bir set.
• 13.750 gerçek yüzden oluşan bir set.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .
[1] StyleGAN parametresi ψ (tipik olarak [0, 1] aralığında), bir görüntü oluşturmak için kullanılan gizli alan temsilindeki çekirdek değerlerin kesilmesini kontrol eder. Daha küçük ψ değerleri daha iyi görüntü kalitesi sağlar ancak yüz çeşitliliğini azaltır. ψ = 0,5'lik bir orta aralık değeri, nispeten yapay olmayan yüzler üretirken, sentezlenen yüzdeki cinsiyet, yaş ve etnik kökendeki farklılıklara da izin verir.
[2] https://generate.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https : // github . com / Kararlılık - Yapay Zeka / StableDiffusion
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com