paint-brush
जंगल में एआई-जनरेटेड चेहरे खोजना: सार और परिचयद्वारा@botbeat
112 रीडिंग

जंगल में एआई-जनरेटेड चेहरे खोजना: सार और परिचय

बहुत लंबा; पढ़ने के लिए

AI ऑनलाइन घोटालों के लिए यथार्थवादी नकली चेहरे बना सकता है। यह कार्य छवियों में AI-जनित चेहरों का पता लगाने की विधि प्रस्तावित करता है।
featured image - जंगल में एआई-जनरेटेड चेहरे खोजना: सार और परिचय
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

लेखक:

(1) गोंजालो जे. अनियानो पोर्सिल, लिंक्डइन;

(2) जैक गिन्डी, लिंक्डइन;

(3) शिवांश मुंद्रा, लिंक्डइन;

(4) जेम्स आर. वर्बस, लिंक्डइन;

(5) हनी फ़रीद, लिंक्डइन और यूनिवर्सिटी ऑफ़ कैलिफ़ोर्निया, बर्कले।

लिंक की तालिका

अमूर्त

AI-आधारित छवि निर्माण में तेजी से सुधार जारी है, जिससे कम स्पष्ट दृश्य दोषों के साथ अधिक यथार्थवादी छवियां तैयार हो रही हैं। AI-जनरेटेड छवियों का उपयोग नकली ऑनलाइन प्रोफ़ाइल बनाने के लिए किया जा रहा है, जिसका उपयोग स्पैम, धोखाधड़ी और गलत सूचना अभियानों के लिए किया जा रहा है। चूंकि किसी भी प्रकार की हेरफेर या संश्लेषित सामग्री का पता लगाने की सामान्य समस्या पर अधिक ध्यान दिया जा रहा है, इसलिए यहां हम एक वास्तविक चेहरे को AI-जनरेटेड चेहरे से अलग करने के अधिक संकीर्ण कार्य पर ध्यान केंद्रित करते हैं। यह विशेष रूप से तब लागू होता है जब नकली उपयोगकर्ता प्रोफ़ाइल फ़ोटो वाले अप्रमाणिक ऑनलाइन खातों से निपटना होता है। हम दिखाते हैं कि केवल चेहरों पर ध्यान केंद्रित करके, एक अधिक लचीला और सामान्य-उद्देश्य वाला आर्टिफैक्ट पता लगाया जा सकता है जो विभिन्न GAN- और प्रसार-आधारित संश्लेषण इंजनों से AI-जनरेटेड चेहरों का पता लगाने की अनुमति देता है, और छवि रिज़ॉल्यूशन (128 × 128 पिक्सेल जितना कम) और गुणवत्ता में।

1 परिचय

पिछले तीन दशकों में प्राकृतिक छवियों के सांख्यिकीय मॉडलिंग में उल्लेखनीय प्रगति देखी गई है। सबसे सरल पावर-स्पेक्ट्रल मॉडल [20] प्राकृतिक छवियों के लिए विशिष्ट 1/ω आवृत्ति परिमाण गिरावट को पकड़ता है, चित्र 1(ए)। क्योंकि यह मॉडल किसी भी चरण की जानकारी को शामिल नहीं करता है, इसलिए यह विस्तृत संरचनात्मक जानकारी को पकड़ने में असमर्थ है। 2000 की शुरुआत तक, नए सांख्यिकीय मॉडल परिमाण और (कुछ) चरण दोनों के प्राकृतिक सांख्यिकी को पकड़ने में सक्षम थे [25], जिससे बुनियादी बनावट पैटर्न के मॉडलिंग में सफलता मिली, चित्र 1(बी)।


दोहराए जाने वाले पैटर्न को पकड़ने में सक्षम होने के बावजूद, ये मॉडल वस्तुओं, चेहरों या जटिल दृश्यों के ज्यामितीय गुणों को पकड़ने में सक्षम नहीं हैं। 2017 में शुरू होने वाले और प्राकृतिक छवियों के बड़े डेटा सेट, डीप लर्निंग में प्रगति और शक्तिशाली GPU क्लस्टर द्वारा संचालित, जनरेटिव मॉडल ने मानव चेहरों और वस्तुओं के विस्तृत गुणों को पकड़ना शुरू कर दिया [16, 18]। एक ही श्रेणी (चेहरे, कार, बिल्लियाँ, आदि) से बड़ी संख्या में छवियों पर प्रशिक्षित, ये जनरेटिव एडवर्सरियल नेटवर्क (GAN) अत्यधिक विस्तृत गुणों को पकड़ते हैं


चित्र 1. प्राकृतिक छवियों के सांख्यिकीय मॉडल का विकास: (ए) 1/ω पावर स्पेक्ट्रम के साथ एक फ्रैक्टल पैटर्न; (बी) एक संश्लेषित कपड़ा पैटर्न [25]; (सी) एक जीएएन-जनरेटेड चेहरा [17]; और (डी) एक प्रसार-जनरेटेड दृश्य जिसमें प्रॉम्प्ट “एक मधुमक्खी पालक एक स्व-चित्र बना रहा है” [1]।


उदाहरण के लिए, चेहरे, चित्र 1(सी), लेकिन केवल एक ही श्रेणी तक सीमित हैं। हाल ही में, प्रसार-आधारित मॉडल [2,26] ने जनरेटिव इमेज मॉडल को भाषाई संकेतों के साथ जोड़ा है, जिससे वर्णनात्मक टेक्स्ट संकेतों जैसे "एक मधुमक्खी पालक एक स्व-चित्र बना रहा है", चित्र 1(डी) से छवियों के संश्लेषण की अनुमति मिलती है।


परंपरागत रूप से, जनरेटिव इमेज मॉडल का विकास दो प्राथमिक लक्ष्यों द्वारा संचालित होता था: (1) प्राकृतिक छवियों के मौलिक सांख्यिकीय गुणों को समझना; और (2) परिणामी संश्लेषित छवियों का उपयोग कंप्यूटर ग्राफ़िक्स रेंडरिंग से लेकर मानव मनोविज्ञान और क्लासिक कंप्यूटर विज़न कार्यों में डेटा वृद्धि तक हर चीज़ के लिए करना। हालाँकि, आज जनरेटिव AI ने स्पैम से लेकर धोखाधड़ी और गलत सूचना अभियानों के लिए अतिरिक्त ईंधन तक के अधिक नापाक उपयोग के मामले खोजे हैं।


हेरफेर की गई या संश्लेषित छवियों का पता लगाना विशेष रूप से चुनौतीपूर्ण होता है जब सैकड़ों मिलियन उपयोगकर्ताओं के साथ बड़े पैमाने पर नेटवर्क पर काम किया जाता है। यह चुनौती तब और भी महत्वपूर्ण हो जाती है जब औसत उपयोगकर्ता असली चेहरे को नकली से अलग करने के लिए संघर्ष करता है [24]। चूँकि हम नकली ऑनलाइन उपयोगकर्ता खाते बनाने में जनरेटिव AI के उपयोग से चिंतित हैं, इसलिए हम ऐसी तेज़ और विश्वसनीय तकनीकें विकसित करना चाहते हैं जो असली और AI-जनरेटेड चेहरों में अंतर कर सकें। हम अपने काम को संबंधित तकनीकों के संदर्भ में रखते हैं।

1.1. संबंधित कार्य

चूँकि हम विशेष रूप से AI-जनरेटेड चेहरों पर ध्यान केंद्रित करेंगे, इसलिए हम संबंधित कार्यों की समीक्षा भी करेंगे जो असली और नकली चेहरों के बीच अंतर करने पर केंद्रित हैं या लागू हैं। AI-जनरेटेड कंटेंट का पता लगाने के लिए दृष्टिकोणों की दो व्यापक श्रेणियाँ हैं [10]।


पहले, परिकल्पना-संचालित दृष्टिकोणों में, एआई-जनरेटेड चेहरों में विशिष्ट कलाकृतियों का शोषण किया जाता है जैसे कि कॉर्नियल प्रतिबिंब [१३] और पुतली के आकार [१५] के रूप में द्विपक्षीय चेहरे की समरूपता में विसंगतियां, या सिर की मुद्रा में असंगतियां और चेहरे की विशेषताओं का स्थानिक लेआउट (आंखें, नाक की नोक, मुंह के कोने, ठोड़ी, आदि) [२३, ३३, ३४]। इन दृष्टिकोणों का लाभ यह है कि वे स्पष्ट, शब्दार्थ-स्तर की विसंगतियों को सीखते हैं। नुकसान यह है कि समय के साथ संश्लेषण इंजन इन कलाकृतियों को - या तो निहित रूप से या स्पष्ट रूप से - सही करने लगते हैं। अन्य गैर-चेहरा विशिष्ट कलाकृतियों में स्थानिक आवृत्ति या शोर विसंगतियां [५,८,१२,२१,३५] शामिल हैं


दूसरे, डेटा-संचालित दृष्टिकोणों में, मशीन लर्निंग का उपयोग यह सीखने के लिए किया जाता है कि वास्तविक और एआई-जनरेटेड छवियों के बीच कैसे अंतर किया जाए [11, 29, 32]। ये मॉडल अक्सर अपने प्रशिक्षण के अनुरूप छवियों का विश्लेषण करते समय अच्छा प्रदर्शन करते हैं, लेकिन फिर आउट-ऑफ-डोमेन छवियों के साथ संघर्ष करते हैं और/या लॉन्ड्रिंग हमलों के लिए असुरक्षित होते हैं क्योंकि मॉडल निम्न-स्तरीय कलाकृतियों पर निर्भर करता है [9]।


हम इन दोनों तरीकों में से सर्वश्रेष्ठ का लाभ उठाने का प्रयास करते हैं। संश्लेषण इंजनों (GAN और प्रसार) की एक श्रृंखला पर अपने मॉडल को प्रशिक्षित करके, हम एक विशिष्ट निम्न-स्तरीय आर्टिफैक्ट पर पकड़ बनाने से बचने का प्रयास करते हैं जो सामान्यीकृत नहीं होते हैं या सरल लॉन्ड्रिंग हमलों के लिए असुरक्षित हो सकते हैं। केवल AI-जनरेटेड चेहरों (और मनमाने सिंथेटिक इमेज नहीं) का पता लगाने पर ध्यान केंद्रित करके, हम दिखाते हैं कि हमारे मॉडल ने AI-जनरेटेड चेहरों से अलग एक अर्थ-स्तरीय आर्टिफैक्ट को कैप्चर किया है जो संभावित रूप से धोखाधड़ी करने वाले उपयोगकर्ता खातों को खोजने के हमारे विशिष्ट अनुप्रयोग के लिए अत्यधिक वांछनीय है। हम यह भी दिखाते हैं कि हमारा मॉडल AI-जनरेटेड चेहरों का पता लगाने के लिए लचीला है जो पहले प्रशिक्षण में नहीं देखे गए थे, और छवि रिज़ॉल्यूशन और गुणवत्ता की एक बड़ी रेंज में लचीला है।


तालिका 1. हमारे प्रशिक्षण और मूल्यांकन में उपयोग की गई वास्तविक और AI-जनित छवियों की संख्या का विभाजन (चित्र 2 भी देखें)।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।