लिंक की तालिका   सार और 1. परिचय   पृष्ठभूमि और संबंधित कार्य   ख़तरा मॉडल   मजबूत शैली अनुकरण   प्रयोगात्मक स्थापना   परिणाम   6.1 मुख्य निष्कर्ष: सभी सुरक्षा उपायों को आसानी से दरकिनार किया जा सकता है   6.2 विश्लेषण   चर्चा और व्यापक प्रभाव, आभार और संदर्भ   ए. विस्तृत कला उदाहरण   बी. मजबूत नकल पीढ़ी   सी. विस्तृत परिणाम   डी. ग्लेज़ फ़ाइनट्यूनिंग के साथ अंतर   ई. ग्लेज़ 2.0 पर निष्कर्ष   एफ. मिस्ट v2 पर निष्कर्ष   जी. शैली अनुकरण के तरीके   एच. मौजूदा शैली नकल संरक्षण   I. मजबूत नकल विधियाँ   जे. प्रायोगिक सेटअप   के. उपयोगकर्ता अध्ययन   एल. कंप्यूट संसाधन  4 मजबूत शैली की नकल  हम कहते हैं कि स्टाइल मिमिक्री विधि मजबूत है यदि यह केवल संरक्षित कलाकृति का उपयोग करके किसी कलाकार की शैली का अनुकरण कर सकती है। जबकि मजबूत नकल के लिए विधियाँ पहले ही प्रस्तावित की जा चुकी हैं, हम इन विधियों में कई सीमाएँ और अनुभाग 4.1 में उनके मूल्यांकन को देखते हैं। फिर हम अपनी खुद की विधियाँ (अनुभाग 4.3) और मूल्यांकन (अनुभाग 5) प्रस्तावित करते हैं जो इन सीमाओं को संबोधित करते हैं।  4.1 पूर्व मजबूत नकल विधियों और उनके मूल्यांकन की सीमाएँ    । अधिकांश जालसाज स्वाभाविक रूप से दुर्भावनापूर्ण होते हैं क्योंकि वे कलाकारों के वास्तविक अनुरोधों को अनदेखा करते हैं कि वे अपनी कला का उपयोग जनरेटिव एआई के लिए न करें (हेइकिला, २०२२)। इस प्रकार एक सफल सुरक्षा को एक उचित संसाधन वाले जालसाज के चक्कर काटने के प्रयासों का विरोध करना चाहिए जो विभिन्न प्रकार के उपकरणों को आज़मा सकते हैं। फिर भी, प्रारंभिक प्रयोगों में, हमने पाया कि ग्लेज़ (शैन एट अल।, २०२३ए) ने मूल मूल्यांकन में दावे की तुलना में काफी खराब प्रदर्शन किया, यहां तक कि इसे दरकिनार करने का सक्रिय प्रयास करने से पहले भी। ग्लेज़ के लेखकों के साथ चर्चा के बाद, हमने अपनी ऑफ-द-शेल्फ फाइनट्यूनिंग स्क्रिप्ट और ग्लेज़ के मूल मूल्यांकन में उपयोग की गई स्क्रिप्ट (जिसे लेखकों ने हमारे साथ साझा किया) के बीच छोटे अंतर पाए। चूंकि हमारी ऑफ-द-शेल्फ फाइनट्यूनिंग स्क्रिप्ट को स्टाइल मिमिक्री सुरक्षा को दरकिनार करने के लिए डिज़ाइन नहीं किया गया था, इसलिए ये परिणाम पहले से ही मौजूदा उपकरणों द्वारा प्रदान की जाने वाली सतही और भंगुर सुरक्षा की ओर इशारा करते हैं: कलाकारों के पास फाइनट्यूनिंग स्क्रिप्ट या हाइपरपैरामीटर्स पर कोई नियंत्रण नहीं होता है, जिसका उपयोग एक जालसाज करेगा, इसलिए इन विकल्पों में सुरक्षा मजबूत होनी चाहिए। (१) कुछ नकल सुरक्षा फाइनट्यूनिंग सेटअपों में सामान्य नहीं होती हैं    सुरक्षा के पिछले मूल्यांकन मध्यम रूप से संसाधन संपन्न जालसाजों की क्षमताओं को प्रतिबिंबित करने में विफल रहते हैं, जो अत्याधुनिक तरीकों (यहां तक कि ऑफ-द-शेल्फ वाले) का उपयोग करते हैं। उदाहरण के लिए, मिस्ट (लियांग एट अल., 2023) एक पुराने और कम-रिज़ॉल्यूशन वाले शुद्धिकरण मॉडल का उपयोग करके डिफप्योर शुद्धिकरण के खिलाफ मूल्यांकन करता है। अधिक हालिया मॉडल के साथ डिफप्योर का उपयोग करते हुए, हम महत्वपूर्ण सुधार देखते हैं। ग्लेज़ (शान एट अल., 2023 ए) का डिफप्योर के किसी भी संस्करण के खिलाफ मूल्यांकन नहीं किया गया है, लेकिन यह संपीड़ित अपस्केलिंग के खिलाफ सुरक्षा का दावा करता है, जो पहले जेपीईजी के साथ एक छवि को संपीड़ित करता है और फिर इसे एक समर्पित मॉडल के साथ अपस्केल करता है। फिर भी, हम दिखाएंगे कि केवल JPEG संपीड़न को गॉसियन शोर के साथ बदलकर, हम एक ऐसे संस्करण के रूप में शोर अपस्केलिंग बनाते हैं जो नकल सुरक्षा को हटाने में अत्यधिक सफल है (दोनों विधियों के बीच तुलना के लिए चित्र 26 देखें)। (2) मौजूदा मज़बूत नकल के प्रयास उप-इष्टतम हैं।    पूर्व सुरक्षा की मजबूती की तुलना करना चुनौतीपूर्ण है क्योंकि मूल मूल्यांकन कलाकारों, संकेतों और फाइनट्यूनिंग सेटअप के विभिन्न सेटों का उपयोग करते हैं। इसके अलावा, कुछ मूल्यांकन स्वचालित मेट्रिक्स (जैसे, CLIP समानता) पर निर्भर करते हैं जो स्टाइल मिमिक्री (शान एट अल., 2023a,b) को मापने के लिए अविश्वसनीय हैं। सुरक्षा विधियों की भंगुरता और मिमिक्री आकलन की व्यक्तिपरकता के कारण, हमारा मानना है कि एक एकीकृत मूल्यांकन की आवश्यकता है। (3) मौजूदा मूल्यांकन गैर-व्यापक हैं।  4.2 मजबूत नकल विधियों का एकीकृत और कठोर मूल्यांकन  धारा 4.1 में प्रस्तुत सीमाओं को संबोधित करने के लिए, हम एक एकीकृत मूल्यांकन प्रोटोकॉल पेश करते हैं ताकि यह विश्वसनीय रूप से आकलन किया जा सके कि विभिन्न सरल और प्राकृतिक मजबूत नकल विधियों के खिलाफ मौजूदा सुरक्षा कैसे काम करती है। ऊपर दी गई प्रत्येक संख्याबद्ध सीमाओं के लिए हमारे समाधान हैं: (1) हमलावर सबसे मजबूत ओपन-सोर्स मॉडल के लिए एक लोकप्रिय "ऑफ-द-शेल्फ" फाइनट्यूनिंग स्क्रिप्ट का उपयोग करता है, जिसके लिए सभी सुरक्षाएं प्रभावी होने का दावा करती हैं: स्थिर प्रसार 2.1। यह फाइनट्यूनिंग स्क्रिप्ट इनमें से किसी भी सुरक्षा से स्वतंत्र रूप से चुनी जाती है, और हम इसे ब्लैक-बॉक्स के रूप में मानते हैं। (2) हम धारा 4.3 में वर्णित चार मजबूत नकल विधियों को डिज़ाइन करते हैं। हम विभिन्न ऑफ-द-शेल्फ टूल को मिलाकर कम-विशेषज्ञता वाले हमलावरों के लिए सरलता और उपयोग में आसानी को प्राथमिकता देते हैं  4.3 हमारी मजबूत नकल विधियाँ  अब हम चार मज़बूत नकल विधियों का वर्णन करते हैं जिन्हें हमने सुरक्षा की मज़बूती का आकलन करने के लिए डिज़ाइन किया है। हम मुख्य रूप से सरल विधियों को प्राथमिकता देते हैं जिनमें केवल संरक्षित छवियों को प्रीप्रोसेस करने की आवश्यकता होती है। ये विधियाँ अधिक जोखिम प्रस्तुत करती हैं क्योंकि वे अधिक सुलभ हैं, तकनीकी विशेषज्ञता की आवश्यकता नहीं है, और ब्लैक-बॉक्स परिदृश्यों में उपयोग की जा सकती हैं (उदाहरण के लिए यदि फ़ाइनट्यूनिंग को API सेवा के रूप में प्रदान किया जाता है)। पूर्णता के लिए, हम IMPRESS (काओ एट अल., 2024) से प्रेरित एक व्हाइट-बॉक्स विधि का प्रस्ताव करते हैं।  हम ध्यान देते हैं कि हमारे द्वारा प्रस्तावित विधियों पर (कम से कम आंशिक रूप से) पिछले काम में विचार किया गया है, जिसमें पाया गया कि वे स्टाइल मिमिक्री सुरक्षा के विरुद्ध अप्रभावी हैं (शान एट अल., 2023ए; लियांग एट अल., 2023; शान एट अल., 2023बी)। फिर भी, जैसा कि हमने अनुभाग 4.1 में उल्लेख किया है, इन मूल्यांकनों में कई सीमाएँ थीं। इसलिए हम इन विधियों (या उनके मामूली रूपों) का पुनर्मूल्यांकन करते हैं और दिखाएंगे कि वे पहले दावा किए गए की तुलना में काफी अधिक सफल हैं।   ब्लैक-बॉक्स प्रीप्रोसेसिंग विधियाँ.  ✦   । एक सरल प्रीप्रोसेसिंग चरण के रूप में, हम संरक्षित छवियों में थोड़ी मात्रा में गॉसियन शोर जोड़ते हैं। इस दृष्टिकोण का उपयोग किसी भी ब्लैक-बॉक्स डिफ्यूज़न मॉडल से पहले किया जा सकता है। गॉसियन शोर  ✦   । हम सुरक्षा द्वारा पेश की गई गड़बड़ी को दूर करने के लिए इमेज-टू-इमेज मॉडल का उपयोग करते हैं, जिसे डिफप्योर (नी एट अल., 2022) भी कहा जाता है (परिशिष्ट I.1 देखें)। यह विधि ब्लैक-बॉक्स है, लेकिन इसके लिए दो अलग-अलग मॉडल की आवश्यकता होती है: प्यूरीफायर, और स्टाइल मिमिक्री के लिए इस्तेमाल किया जाने वाला मॉडल। हम अपने प्यूरीफायर के रूप में स्टेबल डिफ्यूजन एक्सएल का उपयोग करते हैं। डिफप्योर  ✦   । हम ग्लेज़ (शैन एट अल., 2023ए) में माने गए दो-चरण अपस्केलिंग शुद्धिकरण का एक सरल और प्रभावी प्रकार पेश करते हैं। उनकी विधि पहले JPEG संपीड़न (गड़बड़ी को कम करने के लिए) करती है और फिर स्थिर विसरण अपस्केलर (रोम्बाच एट अल., 2022) (गुणवत्ता में गिरावट को कम करने के लिए) का उपयोग करती है। फिर भी, हम पाते हैं कि अपस्केलिंग वास्तव में JPEG संपीड़न कलाकृतियों को हटाने के बजाय उन्हें बढ़ाती है। एक बेहतर शुद्धिकरण विधि डिजाइन करने के लिए, हम देखते हैं कि अपस्केलर को गॉसियन शोर के साथ संवर्धित छवियों पर प्रशिक्षित किया गया है। इसलिए, हम पहले गॉसियन शोर को लागू करके और फिर अपस्केलर को लागू करके एक संरक्षित छवि को शुद्ध करते हैं शोर अपस्केलिंग   व्हाइट-बॉक्स विधियाँ.  ✦   ++. पूर्णता के लिए, हम यह आकलन करने के लिए एक व्हाइट-बॉक्स विधि डिज़ाइन करते हैं कि क्या अधिक जटिल विधियाँ स्टाइल मिमिक्री की मजबूती को और बढ़ा सकती हैं। हमारी विधि IMPRESS (काओ एट अल., 2024) पर आधारित है, लेकिन एक अलग लॉस फ़ंक्शन को अपनाती है और सैंपलिंग प्रक्रिया की मजबूती को बेहतर बनाने के लिए नेगेटिव प्रॉम्प्टिंग (मियाके एट अल., 2023) और डेनॉइज़िंग को लागू करती है (विवरण के लिए परिशिष्ट I.3 और चित्र 27 देखें)। IMPRESS   लेखक:  (1) रॉबर्ट होनिग, ईटीएच ज्यूरिख (robert.hoenig@inf.ethz.ch);  (2) जेवियर रैंडो, ईटीएच ज्यूरिख (javier.rando@inf.ethz.ch);  (3) निकोलस कार्लिनी, गूगल डीपमाइंड;  (4) फ्लोरियन ट्रैमर, ईटीएच ज्यूरिख (फ्लोरियन.ट्रामर@inf.ethz.ch)।  यह पत्र  CC BY 4.0 लाइसेंस के अंतर्गत.   arxiv पर उपलब्ध  [1] दो फ़ाइनट्यूनिंग स्क्रिप्ट मुख्य रूप से लाइब्रेरी, मॉडल और हाइपरपैरामीटर के चयन में भिन्न हैं। हम एक मानक हगिंगफ़ेस स्क्रिप्ट और स्टेबल डिफ़्यूज़न 2.1 (ग्लेज़ पेपर में मूल्यांकन किया गया मॉडल) का उपयोग करते हैं।

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

Exploring the legal landscape of the digital age. Read my articles to understand the why behind the what.

Torts's blog

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

नए अध्ययन से पता चलता है कि AI अब कला शैलियों की पहले से कहीं अधिक सटीकता से नकल कर सकता है

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps