यूके-आधारित वकील क्रिस मैमन एआई-जनित संगीत के बारे में वाइस के साथ हाल ही में एक साक्षात्कार में बताते हैं कि कानून धीरे-धीरे चलता है और सादृश्य द्वारा विकसित होता है। " कुछ नया सामने आता है, और हम यह पता लगाते हैं कि यह किसके समान है, और फिर धीरे-धीरे यह कानून बन जाता है "।
जेनेरेटिव एआई - एआई मॉडल के साथ अब हम जिस समस्या का सामना कर रहे हैं, वह पाठ, चित्र, संगीत या वीडियो जैसे रचनात्मक आउटपुट उत्पन्न कर सकते हैं - समानता के साथ आने में कठिनाई है। दूसरे शब्दों में, जनरेटिव एआई को किसी ऐसी चीज से संबंधित करना जिसे हम पहले से जानते और समझते हैं। अंतर्निहित तकनीक इतनी जटिल है कि यह समझना कि यह वैचारिक स्तर पर कैसे काम करती है और इसे कैसे विनियमित किया जाना चाहिए, इसके लिए कुछ गंभीर दिमागी विस्तार की आवश्यकता होती है।
सोशल मीडिया और इंटरनेट की तरह, एआई मॉडल जैसे ओपनएआई के चैटजीपीटी या उनके टेक्स्ट-टू-इमेज मॉडल डीएएल-ई 2 का उपयोग करना बेहद आसान है। फिर भी, स्पष्ट रूप से हुड के नीचे बहुत सी चीजें चल रही हैं जिन्हें हम थोड़ा सा भी नहीं समझते हैं। उपयोगकर्ता अनुभव और उसके नीचे की सभी जटिल, तकनीकी सामग्री के बीच की खाई वह जगह है जहां आपराधिक और अनैतिक चीजें किसी का ध्यान नहीं जा सकती हैं।
हमने इस "ब्लैक बॉक्स प्रभाव" को स्पष्ट रूप से वित्तीय दुनिया में, हाल ही में क्रिप्टो क्षेत्र में देखा है। कुछ क्रिप्टो समर्थकों, जिनमें मैं भी शामिल हूं, को इस बात की गहरी तकनीकी समझ थी कि क्रिप्टो कैसे काम करता है, और हमें नहीं पता था कि केंद्रीकृत एक्सचेंज कैसे संचालित होते हैं। पारंपरिक वित्त में, यह वह जगह है जहां हम आम तौर पर सरकारी आश्वासन और निगरानी पर भरोसा करते हैं। लेकिन क्रिप्टो जैसे नए और जटिल उद्योग में लगभग कोई नहीं था। डेवलपर्स और उपयोगकर्ताओं के बीच अपेक्षाकृत व्यापक स्वीकृति, तकनीकी जटिलता, निरीक्षण की कमी, और ज्ञान की खाई ने बड़े पैमाने पर अपराध और शोषण के लिए सही परिस्थितियों को निर्धारित किया। पिछले साल, क्रिप्टो एक्सचेंज एक कैस्केड में ढह गए, 2022 में डेफी प्लेटफॉर्म से $ 3 बिलियन से अधिक की चोरी हो गई , और सैकड़ों हजारों लोगों को वित्तीय बर्बादी में छोड़ दिया गया।
एआई उद्योग निश्चित रूप से क्रिप्टो उद्योग से बहुत अलग है, लेकिन अपराध और शोषण के लिए समान स्थितियाँ मौजूद हैं। एआई मॉडल को व्यापक रूप से अपनाया जाता है, क्रिप्टो की तुलना में उपयोग करना आसान है, तकनीकी रूप से अधिक जटिल है, बहुत अधिक निगरानी नहीं है, और उपयोगकर्ताओं और डेवलपर्स के बीच ज्ञान का अंतर यकीनन क्रिप्टो की तुलना में व्यापक है। सौभाग्य से, एआई के खतरों और जोखिमों पर कई जागरूकता अभियान हैं, जहां क्रिप्टो में इसी तरह के अभियान शोर में डूब गए।
जनरेटिव एआई मॉडल में कॉपीराइट सामग्री का उपयोग एक ऐसा क्षेत्र है जहां मौजूदा कानूनों और ढांचे को चुनौती दी जाती है। पिछले सप्ताह के अपने पोस्ट में, मैंने यूरोपीय संघ के मूलभूत मॉडलों की व्याख्या के बारे में लिखा था। इस सप्ताह मैं बंद-स्रोत बनाम ओपन-सोर्स एआई मॉडल के बीच के अंतर पर ध्यान केंद्रित करूंगा और एक लोकप्रिय ओपन-सोर्स एआई इमेज मॉडल स्टेबल डिफ्यूजन पेश करूंगा, जो इस साल की शुरुआत में दो अलग-अलग कोणों से कॉपीराइट मुकदमों से प्रभावित हुआ था। मेरी योजना अगले कुछ हफ़्तों में मुकदमों और कॉपीराइट कानून के प्रभावों के बारे में एक और पोस्ट प्रकाशित करने की है।
प्रशिक्षण नींव मॉडल समय, धन और कम्प्यूटेशनल संसाधनों के मामले में एक महंगा मामला है। सामान्य तौर पर, केवल गहरी जेब वाली बिगटेक कंपनियां ही शुरुआती निवेश का खर्च वहन कर सकती हैं। उसी टोकन के द्वारा, फाउंडेशन मॉडल के पीछे की कंपनियां आमतौर पर बंद-सोर्सिंग एआई में रुचि रखती हैं। विकास और प्रशिक्षण की बहु-मिलियन-डॉलर की लागत को फिर से भरना मुश्किल है यदि प्रतियोगी सभी सामग्रियों तक पहुंच सकते हैं और अपनी गुप्त चटनी का उपयोग कर सकते हैं।
एक महत्वपूर्ण अपवाद मेटा का LLaMA है जिसे मार्क जुकरबर्ग और मेटा की AI अनुसंधान टीम ने विवादास्पद रूप से सार्वजनिक करने का निर्णय लिया । LLaMA एक बड़ा भाषा मॉडल (LLM) है जो 7B से 65B मापदंडों के विभिन्न आकारों में जारी किया गया है। यहां तक कि छोटे से मध्यम आकार का संस्करण, LLaMA-13B, OpenAI के GPT-3 को मात दे सकता है - 10 x छोटा होने के बावजूद। GPT-3 तीन साल पहले ही अभूतपूर्व और बाजार में अग्रणी था।
मेटा के मुख्य एआई वैज्ञानिक यान लेकन का कहना है कि "जो मंच जीतेगा वह खुला होगा"। उनका तर्क है कि एआई में प्रगति इस तरह से तेज है और उपभोक्ता और सरकारें एआई को अपनाने से इंकार कर देंगी जब तक कि यह Google और मेटा जैसी कंपनियों के नियंत्रण से बाहर न हो।
ओपन-सोर्सिंग एआई (जिसका अर्थ है स्रोत कोड उपलब्ध कराना) का प्रतिवाद यह है कि बुरे अभिनेता कोड का उपयोग नापाक एप्लिकेशन बनाने, गलत सूचना फैलाने, धोखाधड़ी करने, साइबर अपराध करने और बहुत सी अन्य बुरी चीजों के लिए कर सकते हैं। मार्क जुकरबर्ग को हाल ही में दो अमेरिकी सीनेटरों से एक पत्र मिला जिन्होंने LLaMA को जनता के लिए उपलब्ध कराने के फैसले की आलोचना की। सीनेटरों ने पत्र में निष्कर्ष निकाला, कि मेटा की " पूरी तरह से कमी, इसके व्यापक व्यापक प्रसार के प्रभाव के बारे में सार्वजनिक विचार " अंततः " जनता के लिए असंतोष" था।
आज, इसके जारी होने के तीन महीने से भी कम समय में, ओपन-सोर्स मॉडल का एक समूह LLaMa के कंधों पर खड़ा है। उदाहरण के लिए विकुना-13बी एक ओपन-सोर्स चैटबॉट है जिसे ShareGPT (एक क्रोम एक्सटेंशन जो उपयोगकर्ताओं को ChatGPT के साथ अपनी बातचीत साझा करने की अनुमति देता है) से एकत्रित उपयोगकर्ता-साझा वार्तालापों पर LLaMA को ठीक-ठीक करके प्रशिक्षित किया गया था। GPT-4 के मूल्यांकन के अनुसार, Vicuna-13B OpenAI के ChatGPT और Google के बार्ड की 90% से अधिक गुणवत्ता प्राप्त करता है, जिसकी प्रशिक्षण लागत लगभग $300 है!
प्रतिस्पर्धा और सुरक्षा चिंताओं के बावजूद, ओपन-सोर्सिंग एआई की ओर एक मजबूत खिंचाव है। नए और बेहतर मॉडल अक्सर जारी किए जाते हैं। हगिंगफेस ओपन एलएलएम लीडरबोर्ड पर, अभी सबसे अच्छा प्रदर्शन करने वाला मॉडल फाल्कन 40बी है, जिसने हाल ही में मेटा के एलएलएमए को हटा दिया है। Falcon 40B को Amazon की मदद से अबू धाबी के टेक्नोलॉजी इनोवेशन इंस्टीट्यूट द्वारा विकसित किया गया था।
जूरी अभी भी बाहर है कि क्या ओपन-सोर्स डेवलपमेंट संभावित रूप से भविष्य में जेनेरेटिव एआई के उपयोग पर हावी हो सकता है। सेमीएनालिसिस द्वारा प्रकाशित एक लीक हुए आंतरिक Google दस्तावेज़ में एक वरिष्ठ Google इंजीनियर ने तर्क दिया कि Google और OpenAI में "कोई खाई नहीं है" और अंततः ओपन-सोर्स AI द्वारा इसे समाप्त कर दिया जाएगा। वह लिखते हैं कि " ओपन-सोर्स मॉडल तेज़, अधिक अनुकूलन योग्य, अधिक निजी और पाउंड-फॉर-पाउंड अधिक सक्षम हैं "।
ओपन-सोर्स एआई की अग्रिम पंक्ति की कंपनियों में से एक स्टेबिलिटी एआई है। कंपनी की स्थापना पूर्व हेज फंड मैनेजर इमाद मोस्टाक ने की थी। अपनी वेबसाइट के अनुसार, स्टेबिलिटी एआई ने 2021 में लॉन्च होने के बाद से दुनिया भर में 140,000 से अधिक डेवलपर्स और सात रिसर्च हब की एक सेना तैयार की है। अनुसंधान समुदाय इमेजिंग, भाषा, कोड, ऑडियो, वीडियो, 3डी सामग्री, डिजाइन, बायोटेक और अन्य वैज्ञानिक अनुसंधान जैसे विभिन्न उद्देश्यों के लिए एआई मॉडल विकसित करता है।
आज तक जिस उत्पाद स्टेबिलिटी एआई को जाना जाता है, वह इमेज मॉडल स्टेबल डिफ्यूजन है। स्टेबल डिफ्यूजन एक एआई इमेज मॉडल है जो टेक्स्ट प्रॉम्प्ट से इमेज जेनरेट या ट्वीक कर सकता है। यह अगस्त 2022 में जारी किया गया था, ओपनएआई की वायरल इंटरनेट सनसनी डीएएल-ई 2 को प्रतीक्षा सूची में 1 मिलियन उपयोगकर्ताओं के लिए निजी तौर पर जारी किए जाने के कुछ समय बाद। AI समुदाय के कई लोगों ने स्थिर प्रसार को एक क्रांतिकारी मील का पत्थर माना। यह न केवल समकालीन, बड़े, और बंद टेक्स्ट-टू-इमेज मॉडल जैसे DALL-E 2 , या Google के Imagen की क्षमताओं से मेल खाता था, या उससे भी अधिक था, लेकिन यह ओपन-सोर्स था।
स्टेबल डिफ्यूज़न लाइसेंस के अनुसार, कानून, नैतिकता और सामान्य ज्ञान के दायरे में कोई भी इस मॉडल का उपयोग वाणिज्यिक अनुप्रयोगों को बनाने, इसकी वास्तुकला का अध्ययन करने, इसे बनाने और इसके डिजाइन को संशोधित करने के लिए कर सकता है। क्लोज्ड-सोर्स इमेज मॉडल से अलग, स्टेबल डिफ्यूजन को डाउनलोड किया जा सकता है और एक औसत गेमिंग पीसी पर स्थानीय रूप से चलाया जा सकता है। कोडिंग कौशल के बिना आकस्मिक उपयोगकर्ताओं के लिए, वेब ऐप ड्रीमस्टूडियो या नए ओपन-सोर्स वेब ऐप स्टेबलस्टडियो के माध्यम से भी स्थिर प्रसार तक पहुँचा जा सकता है।
एक साइड स्टोरी के रूप में, स्टेबल डिफ्यूजन वास्तव में म्यूनिख में लुडविग-मैक्सिमिलियंस-यूनिवर्सिटेट के शोधकर्ताओं की एक टीम द्वारा विकसित किया गया था, जबकि स्टेबिलिटी एआई ने मॉडल को प्रशिक्षित करने के लिए कंप्यूटिंग संसाधनों को वित्त पोषित किया था। बहुत अधिक अनुचित श्रेय लेने के लिए स्थिरता की आलोचना की गई है क्योंकि म्यूनिख में विश्वविद्यालय ने सभी भारी भारोत्तोलन किए, जिसके परिणामस्वरूप स्थिर प्रसार हुआ। फोर्ब्स द्वारा पिछले रविवार को प्रकाशित एक लेख में, स्थिरता के संस्थापक इमाद मस्जिद को झूठ बोलने की प्रवृत्ति के साथ एक पैथोलॉजिकल अतिशयोक्ति के रूप में चित्रित किया गया था। स्टेबल डिफ्यूज़न के पीछे शोध दल के प्रमुख प्रो. डॉ. ब्योर्न ओमर ने फोर्ब्स को बताया कि उन्हें अपनी प्रयोगशाला के काम को प्रचारित करने की उम्मीद थी, लेकिन उनके विश्वविद्यालय का पूरा प्रेस विभाग उस समय छुट्टी पर था (ऐसी चीजें केवल सार्वजनिक विश्वविद्यालयों में ही हो सकती हैं)।
स्थिर प्रसार का खुलापन शोधकर्ताओं के साथ-साथ सरकारों, प्रतिस्पर्धियों, नियामकों और खून के प्यासे कॉपीराइट अधिवक्ताओं के लिए एक उपहार है। अंतिम श्रेणी के भीतर, हम मैथ्यू बटरिक और उनकी कानूनी टीम को ढूंढते हैं, जो स्थिरता एआई, मिडजर्नी और डेविएंटआर्ट के खिलाफ एक क्लास-एक्शन मुकदमे में तीन स्वतंत्र कलाकारों का प्रतिनिधित्व करती है।
वकील मैथ्यू बटरिक के अनुसार: " [स्थिर प्रसार] एक परजीवी है, जिसे अगर बढ़ने दिया जाए, तो कलाकारों को अभी और भविष्य में अपूरणीय क्षति होगी।"
मैं तर्क दूंगा कि बटरिक स्थिर प्रसार और आधुनिक एआई छवि मॉडल के अपने लक्षण वर्णन के बारे में कुछ अर्थों में सही है। वे मूल काम से रचनात्मकता को चूसते हैं, इसे बड़े पैमाने पर एक साथ मैश करते हैं, और उन कलाकारों की आजीविका को खतरे में डालते हैं जिन्होंने अनिच्छा से और अनजाने में सूक्ष्म योगदान के साथ मॉडल को प्रशिक्षित करने में मदद की है।
हालाँकि, वर्ग कार्रवाई का मुकदमा इतनी सारी कानूनी और तकनीकी अशुद्धियों, गलतफहमियों और कमियों से भरा हुआ है कि मैं केवल आश्चर्य कर सकता हूँ कि क्या कानूनी टीम उनके दिमाग से बाहर थी जब उन्होंने सम्मन का पहला मसौदा लिखा था। एक अन्य सिद्धांत यह है कि बटरिक और सह जानबूझकर गलत तरीके से पेश करने की कोशिश कर रहे हैं कि तकनीक जनता या न्यायाधीशों को भ्रमित करने के लिए कैसे काम करती है। कहना मुश्किल।
अपनी अगली पोस्ट में, हम तुच्छ मुकदमे पर और गौर करेंगे और बताएंगे कि यह कॉपीराइट की खुजली को सही जगह पर क्यों नहीं खंगालता।
यहाँ भी प्रकाशित हुआ ।