लेखक:  (1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;  (2) जैक गिन्डी, लिंक्डइन;  (3) शिवांश मुंद्रा, लिंक्डइन;  (4) जेम्स आर. वर्बस, लिंक्डइन;  (5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।  लिंक की तालिका   सार और परिचय   डेटा सेट   नमूना   परिणाम   चर्चा, आभार और संदर्भ  2. डेटा सेट  हमारा प्रशिक्षण और मूल्यांकन 18 डेटा सेट का लाभ उठाता है जिसमें 120,000 वास्तविक लिंक्डइन प्रोफ़ाइल फ़ोटो और 105,900 AI-जनरेटेड चेहरे शामिल हैं जो पाँच अलग-अलग GAN और पाँच अलग-अलग प्रसार संश्लेषण इंजनों में फैले हुए हैं। AI-जनरेटेड छवियों में दो मुख्य श्रेणियाँ शामिल हैं, एक चेहरा वाली और दूसरी बिना चेहरे वाली। वास्तविक और संश्लेषित रंग (RGB) छवियों को उनके मूल रिज़ॉल्यूशन से 512 × 512 पिक्सेल तक आकार दिया गया है। तालिका 1 में इन छवियों का लेखा-जोखा दिखाया गया है, और चित्र 2 में AI-जनरेटेड श्रेणियों में से प्रत्येक के प्रतिनिधि उदाहरण दिखाए गए हैं जैसा कि आगे वर्णित है।  2.1. वास्तविक चेहरे  120,000 असली फ़ोटो लिंक्डइन उपयोगकर्ताओं से लिए गए थे, जिनके प्रोफ़ाइल फ़ोटो 1 जनवरी, 2019 और 1 दिसंबर, 2022 के बीच अपलोड किए गए थे। इन खातों ने प्लेटफ़ॉर्म पर कम से कम 30 दिनों तक गतिविधि दिखाई (जैसे, साइन इन, पोस्ट, मैसेज, सर्च) बिना किसी नकली-खाता डिटेक्टर को ट्रिगर किए। खातों पर उम्र और गतिविधि को देखते हुए, हम आश्वस्त हो सकते हैं कि ये तस्वीरें असली हैं। ये तस्वीरें व्यापक रूप से अलग-अलग रिज़ॉल्यूशन और गुणवत्ता की थीं। हालाँकि इनमें से ज़्यादातर तस्वीरें एक ही व्यक्ति की मानक प्रोफ़ाइल फ़ोटो हैं, लेकिन कुछ में चेहरा नहीं है। इसके विपरीत, सभी AI-जनरेटेड इमेज (आगे वर्णित) में एक चेहरा होता है। हम सेक्शन 4 में असली और नकली तस्वीरों के बीच इस अंतर पर फिर से विचार करेंगे।  २.२. GAN चेहरे   2, और 3, रंगीन छवियों को 1024 × 1024 पिक्सेल के रिज़ॉल्यूशन और ψ = 0.5 के साथ संश्लेषित किया गया था। [1] EG3D (कुशल ज्यामिति-जागरूक 3D जेनरेटिव एडवरसैरियल नेटवर्क) के लिए, स्टाइलजीएएन के तथाकथित 3 डी संस्करण, हमने 512 × 512 के रिज़ॉल्यूशन पर ψ = 0.5 और यादृच्छिक हेड पोज़ के साथ 10,000 छवियों को संश्लेषित किया।  1024 × 1024 पिक्सल के रिज़ॉल्यूशन पर कुल 10,000 छवियाँ generated.photos[2] से डाउनलोड की गईं। ये GAN-संश्लेषित छवियाँ आम तौर पर अधिक पेशेवर दिखने वाले हेड शॉट्स का उत्पादन करती हैं क्योंकि नेटवर्क को फ़ोटोग्राफ़िक स्टूडियो में रिकॉर्ड की गई उच्च-गुणवत्ता वाली छवियों के डेटासेट पर प्रशिक्षित किया जाता है।  2.3. GAN गैर-चेहरे  कुल 5,000 स्टाइलगैन 1 छवियाँ डाउनलोड की गईं[3] तीन गैर-चेहरे श्रेणियों में से प्रत्येक के लिए: बेडरूम, कार और बिल्लियाँ (अन्य स्टाइलगैन संस्करणों के लिए रिपॉजिटरी चेहरों के अलावा अन्य श्रेणियों के लिए छवियाँ प्रदान नहीं करती हैं)। इन छवियों का आकार 512 × 384 (कार) से लेकर 256 × 256 (बेडरूम और बिल्लियाँ) तक था।  2.4. प्रसार चेहरे  हमने प्रत्येक स्थिर प्रसार [26] संस्करण (1, 2) [4] से 9,000 छवियाँ तैयार कीं। ऊपर वर्णित GAN चेहरों के विपरीत, टेक्स्ट-टू-इमेज प्रसार संश्लेषण चेहरों की उपस्थिति पर अधिक नियंत्रण प्रदान करता है। विविधता सुनिश्चित करने के लिए, 30 जनसांख्यिकी में से प्रत्येक के लिए 300 चेहरे "एक {युवा, मध्यम आयु वर्ग, वृद्ध} {काले, पूर्व-एशियाई, हिस्पैनिक, दक्षिण-एशियाई, श्वेत} {महिला, पुरुष} की एक तस्वीर" के साथ। इन छवियों को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था। इस डेटासेट को स्पष्ट संश्लेषण विफलताओं को हटाने के लिए क्यूरेट किया गया था, जिसमें, उदाहरण के लिए, चेहरा दिखाई नहीं दे रहा था।  स्टेबल डिफ्यूज़न (xl) के सबसे हाल के संस्करण से अतिरिक्त 900 छवियाँ संश्लेषित की गईं। पहले की तरह ही समान जनसांख्यिकीय श्रेणियों का उपयोग करते हुए, 30 श्रेणियों में से प्रत्येक के लिए 30 छवियाँ तैयार की गईं, जिनमें से प्रत्येक का रिज़ॉल्यूशन 768 × 768 था।  हमने DALL-E 2 [5] से 9,000 छवियाँ तैयार कीं, जिनमें 30 जनसांख्यिकीय समूहों में से प्रत्येक के लिए 300 छवियाँ शामिल थीं। इन छवियों को 512×512 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था।  कुल 1,000 मिडजर्नी[6] छवियों को 512 × 512 के रिज़ॉल्यूशन पर डाउनलोड किया गया था। इन छवियों को केवल एक ही चेहरे को शामिल करने के लिए मैन्युअल रूप से क्यूरेट किया गया था।  2.5. प्रसार गैर-चेहरे  हमने स्टेबल डिफ्यूजन (1, 2) के दो संस्करणों में से प्रत्येक से 1,000 गैर-चेहरे वाली छवियों को संश्लेषित किया। ये छवियां यादृच्छिक कैप्शन (चैटजीपीटी द्वारा उत्पन्न) का उपयोग करके बनाई गई थीं और किसी व्यक्ति या चेहरे वाली किसी भी छवि को हटाने के लिए मैन्युअल रूप से समीक्षा की गई थी। इन छवियों को 600 × 600 पिक्सेल के रिज़ॉल्यूशन पर संश्लेषित किया गया था। 1,000 DALL-E 2 और 1,000 मिडजर्नी छवियों के एक समान सेट को 512 × 512 के रिज़ॉल्यूशन पर संश्लेषित किया गया था।  2.6. प्रशिक्षण और मूल्यांकन डेटा  ऊपर सूचीबद्ध छवियों के सेट को प्रशिक्षण और मूल्यांकन में इस प्रकार विभाजित किया गया है। हमारा मॉडल (अनुभाग 3 में वर्णित) 30,000 वास्तविक चेहरों और 30,000 AI-जनरेटेड चेहरों के एक यादृच्छिक उपसमूह पर प्रशिक्षित है। AI-जनरेटेड चेहरे 5,250 स्टाइलगैन 1, 5,250 स्टाइलगैन 2, 4,500 स्टाइलगैन 3, 3,750 स्टेबल डिफ्यूजन 1, 3,750 स्टेबल डिफ्यूजन 2 और 7,500 DALL-E 2 छवियों के एक यादृच्छिक उपसमूह से बने हैं।  हम अपने मॉडल का मूल्यांकन निम्नलिखित के आधार पर करते हैं:  • प्रशिक्षण में उपयोग किए गए समान संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (स्टाइलगैन 1, स्टाइलगैन 2, स्टाइलगैन 3, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और डीएएलएल-ई 2)।  • प्रशिक्षण में उपयोग नहीं किए गए संश्लेषण इंजनों से 5,000 चेहरे की छवियों का एक सेट (जेनरेटेड.फोटोस, ईजी3डी, स्टेबल डिफ्यूजन एक्सएल, और मिडजर्नी)।  • पांच संश्लेषण इंजनों (स्टाइलगैन 1, डैल-ई 2, स्टेबल डिफ्यूजन 1, स्टेबल डिफ्यूजन 2 और मिडजर्नी) में से प्रत्येक से 3,750 गैर-चेहरे छवियों का एक सेट।  • 13,750 वास्तविक चेहरों का एक सेट।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध  [1] स्टाइलगैन पैरामीटर ψ (आमतौर पर [0, 1] की सीमा में) एक छवि बनाने के लिए उपयोग किए जाने वाले अव्यक्त स्थान प्रतिनिधित्व में बीज मानों के कटाव को नियंत्रित करता है। ψ के छोटे मान बेहतर छवि गुणवत्ता प्रदान करते हैं लेकिन चेहरे की विविधता को कम करते हैं। ψ = 0.5 का एक मध्य-श्रेणी मान अपेक्षाकृत आर्टिफैक्ट-मुक्त चेहरे बनाता है, जबकि संश्लेषित चेहरे में लिंग, आयु और जातीयता में भिन्नता की अनुमति देता है।  [2] https://generated.photos/faces  [3] https://github.com/NVlabs/stylegan)  [4] https://github.com/स्थिरता - एआई/स्टेबलडिफ्यूजन  [5] https://openai.com/dall-e-2  [6] https://www.midjourney.com

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

BotBeat is an AI Research Goldmine - said real person talking to a bot on Twitter/X/Gronk/WhateverWeAreCallingIt

BotBeat's Blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

जंगल में एआई-जनरेटेड चेहरे खोजना: डेटा सेट

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps