लेखक:
(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;
(2) जैक गिन्डी, लिंक्डइन;
(3) शिवांश मुंद्रा, लिंक्डइन;
(4) जेम्स आर. वर्बस, लिंक्डइन;
(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।
हमारा प्रशिक्षण और मूल्यांकन 18 डेटा सेट का लाभ उठाता है जिसमें 120,000 वास्तविक लिंक्डइन प्रोफ़ाइल फ़ोटो और 105,900 AI-जनरेटेड चेहरे शामिल हैं जो पाँच अलग-अलग GAN और पाँच अलग-अलग प्रसार संश्लेषण इंजनों में फैले हुए हैं। AI-जनरेटेड छवियों में दो मुख्य श्रेणियाँ शामिल हैं, एक चेहरा वाली और दूसरी बिना चेहरे वाली। वास्तविक और संश्लेषित रंग (RGB) छवियों को उनके मूल रिज़ॉल्यूशन से 512 × 512 पिक्सेल तक आकार दिया गया है। तालिका 1 में इन छवियों का लेखा-जोखा दिखाया गया है, और चित्र 2 में AI-जनरेटेड श्रेणियों में से प्रत्येक के प्रतिनिधि उदाहरण दिखाए गए हैं जैसा कि आगे वर्णित है।
120,000 असली फ़ोटो लिंक्डइन उपयोगकर्ताओं से लिए गए थे, जिनके प्रोफ़ाइल फ़ोटो 1 जनवरी, 2019 और 1 दिसंबर, 2022 के बीच अपलोड किए गए थे। इन खातों ने प्लेटफ़ॉर्म पर कम से कम 30 दिनों तक गतिविधि दिखाई (जैसे, साइन इन, पोस्ट, मैसेज, सर्च) बिना किसी नकली-खाता डिटेक्टर को ट्रिगर किए। खातों पर उम्र और गतिविधि को देखते हुए, हम आश्वस्त हो सकते हैं कि ये तस्वीरें असली हैं। ये तस्वीरें व्यापक रूप से अलग-अलग रिज़ॉल्यूशन और गुणवत्ता की थीं। हालाँकि इनमें से ज़्यादातर तस्वीरें एक ही व्यक्ति की मानक प्रोफ़ाइल फ़ोटो हैं, लेकिन कुछ में चेहरा नहीं है। इसके विपरीत, सभी AI-जनरेटेड इमेज (आगे वर्णित) में एक चेहरा होता है। हम सेक्शन 4 में असली और नकली तस्वीरों के बीच इस अंतर पर फिर से विचार करेंगे।
2, और 3, रंगीन छवियों को 1024 × 1024 पिक्सेल के रिज़ॉल्यूशन और ψ = 0.5 के साथ संश्लेषित किया गया था। [1] EG3D (कुशल ज्यामिति-जागरूक 3D जेनरेटिव एडवरसैरियल नेटवर्क) के लिए, स्टाइलजीएएन के तथाकथित 3 डी संस्करण, हमने 512 × 512 के रिज़ॉल्यूशन पर ψ = 0.5 और यादृच्छिक हेड पोज़ के साथ 10,000 छवियों को संश्लेषित किया।
1024 × 1024 पिक्सल के रिज़ॉल्यूशन पर कुल 10,000 छवियाँ generated.photos[2] से डाउनलोड की गईं। ये GAN-संश्लेषित छवियाँ आम तौर पर अधिक पेशेवर दिखने वाले हेड शॉट्स का उत्पादन करती हैं क्योंकि नेटवर्क को फ़ोटोग्राफ़िक स्टूडियो में रिकॉर्ड की गई उच्च-गुणवत्ता वाली छवियों के डेटासेट पर प्रशिक्षित किया जाता है।
कुल 5,000 स्टाइलगैन 1 छवियाँ डाउनलोड की गईं[3] तीन गैर-चेहरे श्रेणियों में से प्रत्येक के लिए: बेडरूम, कार और बिल्लियाँ (अन्य स्टाइलगैन संस्करणों के लिए रिपॉजिटरी चेहरों के अलावा अन्य श्रेणियों के लिए छवियाँ प्रदान नहीं करती हैं)। इन छवियों का आकार 512 × 384 (कार) से लेकर 256 × 256 (बेडरूम और बिल्लियाँ) तक था।
हमने प्रत्येक स्थिर प्रसार [26] संस्करण (1, 2) [4] से 9,000 छवियाँ तैयार कीं। ऊपर वर्णित GAN चेहरों के विपरीत, टेक्स्ट-टू-इमेज प्रसार संश्लेषण चेहरों की उपस्थिति पर अधिक नियंत्रण प्रदान करता है। विविधता सुनिश्चित करने के लिए, 30 जनसांख्यिकी में से प्रत्येक के लिए 300 चेहरे "एक {युवा, मध्यम आयु वर्ग, वृद्ध} {काले, पूर्व-एशियाई, हिस्पैनिक, दक्षिण-एशियाई, श्वेत} {महिला, पुरुष} की एक तस्वीर" के साथ। इन छवियों को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था। इस डेटासेट को स्पष्ट संश्लेषण विफलताओं को हटाने के लिए क्यूरेट किया गया था, जिसमें, उदाहरण के लिए, चेहरा दिखाई नहीं दे रहा था।
स्टेबल डिफ्यूज़न (xl) के सबसे हाल के संस्करण से अतिरिक्त 900 छवियाँ संश्लेषित की गईं। पहले की तरह ही समान जनसांख्यिकीय श्रेणियों का उपयोग करते हुए, 30 श्रेणियों में से प्रत्येक के लिए 30 छवियाँ तैयार की गईं, जिनमें से प्रत्येक का रिज़ॉल्यूशन 768 × 768 था।
हमने DALL-E 2 [5] से 9,000 छवियाँ तैयार कीं, जिनमें 30 जनसांख्यिकीय समूहों में से प्रत्येक के लिए 300 छवियाँ शामिल थीं। इन छवियों को 512×512 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था।
कुल 1,000 मिडजर्नी[6] छवियों को 512 × 512 के रिज़ॉल्यूशन पर डाउनलोड किया गया था। इन छवियों को केवल एक ही चेहरे को शामिल करने के लिए मैन्युअल रूप से क्यूरेट किया गया था।
हमने स्टेबल डिफ्यूजन (1, 2) के दो संस्करणों में से प्रत्येक से 1,000 गैर-चेहरे वाली छवियों को संश्लेषित किया। ये छवियां यादृच्छिक कैप्शन (चैटजीपीटी द्वारा उत्पन्न) का उपयोग करके बनाई गई थीं और किसी व्यक्ति या चेहरे वाली किसी भी छवि को हटाने के लिए मैन्युअल रूप से समीक्षा की गई थी। इन छवियों को 600 × 600 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था। 1,000 DALL-E 2 और 1,000 मिडजर्नी छवियों के एक समान सेट को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था।
ऊपर सूचीबद्ध छवियों के सेट को प्रशिक्षण और मूल्यांकन में इस प्रकार विभाजित किया गया है। हमारा मॉडल (अनुभाग 3 में वर्णित) 30,000 वास्तविक चेहरों और 30,000 AI-जनरेटेड चेहरों के एक यादृच्छिक उपसमूह पर प्रशिक्षित है। AI-जनरेटेड चेहरे 5,250 स्टाइलगैन 1, 5,250 स्टाइलगैन 2, 4,500 स्टाइलगैन 3, 3,750 स्टेबल डिफ्यूजन 1, 3,750 स्टेबल डिफ्यूजन 2 और 7,500 DALL-E 2 छवियों के एक यादृच्छिक उपसमूह से बने हैं।
हम अपने मॉडल का मूल्यांकन निम्नलिखित के आधार पर करते हैं:
• प्रशिक्षण में उपयोग किए गए समान संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (स्टाइलगैन 1, स्टाइलगैन 2, स्टाइलगैन 3, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और डीएएलएल-ई 2)।
• प्रशिक्षण में उपयोग नहीं किए गए संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (जेनरेटेड.फोटोस, ईजी3डी, स्टेबल डिफ्यूजन एक्सएल, और मिडजर्नी)।
• पांच संश्लेषण इंजनों (स्टाइलगैन 1, डैल-ई 2, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और मिडजर्नी) में से प्रत्येक से 3,750 गैर-चेहरे छवियों का एक सेट।
• 13,750 वास्तविक चेहरों का एक सेट।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] स्टाइलगैन पैरामीटर ψ (आमतौर पर [0, 1] की सीमा में) एक छवि बनाने के लिए उपयोग किए जाने वाले अव्यक्त स्थान प्रतिनिधित्व में बीज मानों के कटाव को नियंत्रित करता है। ψ के छोटे मान बेहतर छवि गुणवत्ता प्रदान करते हैं लेकिन चेहरे की विविधता को कम करते हैं। ψ = 0.5 का एक मध्य-श्रेणी मान अपेक्षाकृत आर्टिफैक्ट-मुक्त चेहरे बनाता है, जबकि संश्लेषित चेहरे में लिंग, आयु और जातीयता में भिन्नता की अनुमति देता है।
[2] https://generated.photos/faces
[3] https://github.com/NVlabs/stylegan)
[4] https://github.com/स्थिरता - एआई/स्टेबलडिफ्यूजन
[5] https://openai.com/dall-e-2
[6] https://www.midjourney.com