लेखक:
(1) रॉबर्ट होनिग, ईटीएच ज्यूरिख ([email protected]);
(2) जेवियर रैंडो, ईटीएच ज्यूरिख ([email protected]);
(3) निकोलस कार्लिनी, गूगल डीपमाइंड;
(4) फ्लोरियन ट्रैमर, ईटीएच ज्यूरिख (फ्लोरियन.ट्रामर@inf.ethz.ch)।
डी. ग्लेज़ फ़ाइनट्यूनिंग के साथ अंतर
कलाकार छवि निर्माण मॉडल में प्रगति के बारे में तेजी से चिंतित हैं जो उनकी अनूठी कलात्मक शैलियों को बारीकी से दोहरा सकते हैं। जवाब में, शैली की नकल के खिलाफ कई सुरक्षा उपकरण विकसित किए गए हैं जो ऑनलाइन प्रकाशित कलाकृतियों में छोटे प्रतिकूल गड़बड़ी को शामिल करते हैं। इस काम में, हम लोकप्रिय सुरक्षा की प्रभावशीलता का मूल्यांकन करते हैं - लाखों डाउनलोड के साथ - और दिखाते हैं कि वे केवल सुरक्षा की झूठी भावना प्रदान करते हैं। हम पाते हैं कि कम प्रयास और "ऑफ-द-शेल्फ" तकनीकें, जैसे कि छवि अपस्केलिंग, मजबूत नकल विधियाँ बनाने के लिए पर्याप्त हैं जो मौजूदा सुरक्षा को काफी हद तक कम कर देती हैं। एक उपयोगकर्ता अध्ययन के माध्यम से, हम प्रदर्शित करते हैं कि सभी मौजूदा सुरक्षा को आसानी से दरकिनार किया जा सकता है, जिससे कलाकार शैली की नकल के प्रति संवेदनशील हो जाते हैं। हम चेतावनी देते हैं कि प्रतिकूल गड़बड़ी पर आधारित उपकरण कलाकारों को जनरेटिव AI के दुरुपयोग से मज़बूती से नहीं बचा सकते हैं, और वैकल्पिक सुरक्षात्मक समाधानों के विकास का आग्रह करते हैं।
स्टाइल मिमिक्री टेक्स्ट-टू-इमेज जनरेटिव मॉडल का एक लोकप्रिय अनुप्रयोग है। किसी कलाकार की कुछ छवियों को देखते हुए, उस शैली में नई छवियां बनाने के लिए मॉडल को फ़ाइनट्यून किया जा सकता है (उदाहरण के लिए, वैन गॉग की शैली में एक अंतरिक्ष यान)। लेकिन अगर शैली की नकल का दुरुपयोग किया जाए तो यह काफी नुकसान पहुंचा सकती है। विशेष रूप से, कई समकालीन कलाकारों को चिंता है कि अब अन्य लोग उनकी अनूठी कला शैली की नकल करने वाली छवियां बना सकते हैं, और संभावित रूप से ग्राहकों को चुरा सकते हैं (हेइकिला, 2022)। प्रतिक्रिया के रूप में, कलाकारों को शैली की नकल से बचाने के लिए कई सुरक्षा विकसित की गई हैं (शान एट अल., 2023ए; वैन ले एट अल., 2023; लियांग एट अल., 2023)। ये सुरक्षा कलाकार द्वारा ऑनलाइन प्रकाशित की जाने वाली छवियों में प्रतिकूल गड़बड़ी जोड़ते हैं, ताकि फ़ाइनट्यूनिंग प्रक्रिया को बाधित किया जा सके। इन सुरक्षा उपायों को मीडिया से काफी ध्यान मिला है - न्यूयॉर्क टाइम्स (हिल, 2023), सीएनएन (थोरबेके, 2023) और साइंटिफिक अमेरिकन (लेफ़र, 2023) में विशेषताओं के साथ - और इन्हें 1 मिलियन से अधिक बार डाउनलोड किया गया है (शैन एट अल., 2023ए)।
फिर भी, यह स्पष्ट नहीं है कि ये उपकरण किस हद तक कलाकारों को स्टाइल मिमिक्री से बचाते हैं, खासकर अगर कोई सक्रिय रूप से उन्हें दरकिनार करने का प्रयास करता है (राडिया-दीक्षित एट अल., 2021)। इस काम में, हम दिखाते हैं कि अत्याधुनिक स्टाइल प्रोटेक्शन टूल- ग्लेज़ (शान एट अल., 2023a), मिस्ट (लियांग एट अल., 2023) और एंटी-ड्रीमबूथ (वैन ले एट अल., 2023)- सरल मजबूत नकल विधियों के सामने अप्रभावी हैं। हम जिन मजबूत नकल विधियों पर विचार करते हैं, वे कम प्रयास वाली रणनीतियों से लेकर हैं- जैसे कि एक अलग फ़ाइनट्यूनिंग स्क्रिप्ट का उपयोग करना, या प्रशिक्षण से पहले छवियों में गॉसियन शोर जोड़ना- से लेकर बहु-चरणीय रणनीतियाँ जो ऑफ़-द-शेल्फ़ टूल को जोड़ती हैं। हम अपने परिणामों को एक उपयोगकर्ता अध्ययन के साथ मान्य करते हैं, जो बताता है कि मजबूत नकल विधियाँ असुरक्षित कलाकृतियों से प्राप्त गुणवत्ता से अप्रभेद्य परिणाम उत्पन्न कर सकती हैं (एक उदाहरण के लिए चित्र 1 देखें)।
हम दिखाते हैं कि मौजूदा सुरक्षा उपकरण सिर्फ़ सुरक्षा का झूठा एहसास देते हैं। हमारी मज़बूत नकल विधियों के लिए नए उपकरणों या फाइन-ट्यूनिंग विधियों के विकास की ज़रूरत नहीं है, बल्कि सिर्फ़ सावधानीपूर्वक
मानक छवि प्रसंस्करण तकनीकों का संयोजन जो उस समय पहले से ही मौजूद थे जब इन सुरक्षा उपकरणों को पहली बार पेश किया गया था! इसलिए, हमारा मानना है कि कम-कुशल जालसाज भी इन उपकरणों को उनकी शुरुआत से ही आसानी से दरकिनार कर सकते थे।
हालाँकि हम आज मौजूद विशिष्ट सुरक्षा उपकरणों का मूल्यांकन करते हैं, लेकिन स्टाइल मिमिक्री सुरक्षा की सीमाएँ अंतर्निहित हैं। कलाकार अनिवार्य रूप से नुकसान में हैं क्योंकि उन्हें पहले कार्य करना होता है (यानी, एक बार जब कोई संरक्षित कला डाउनलोड करता है, तो सुरक्षा को अब बदला नहीं जा सकता)। प्रभावी होने के लिए, सुरक्षात्मक उपकरणों को किसी भी फ़ाइनट्यूनिंग तकनीक में स्थानांतरित होने वाली गड़बड़ी पैदा करने के चुनौतीपूर्ण कार्य का सामना करना पड़ता है, यहाँ तक कि भविष्य में अनुकूली रूप से चुनी गई तकनीकें भी। राडिया-दीक्षित एट अल। (राडिया-दीक्षित एट अल।, 2021) द्वारा एक समान निष्कर्ष निकाला गया था, जिन्होंने तर्क दिया कि प्रतिकूल गड़बड़ी उपयोगकर्ताओं को चेहरे की पहचान प्रणालियों से नहीं बचा सकती है। इसलिए हम चेतावनी देते हैं कि प्रतिकूल मशीन लर्निंग तकनीकें कलाकारों को जनरेटिव स्टाइल मिमिक्री से मज़बूती से बचाने में सक्षम नहीं होंगी, और कलाकारों की सुरक्षा के लिए वैकल्पिक उपायों के विकास का आग्रह करती हैं।
हमने प्रकाशन से पहले प्रभावित सुरक्षा उपकरणों के समक्ष अपने परिणामों का खुलासा कर दिया, ताकि वे मौजूदा उपयोगकर्ताओं के लिए सर्वोत्तम कार्यवाही का निर्धारण कर सकें।
यह पत्र