AI भूकंप के लिए तैयार हो जाइए! यूसीएलए शोधकर्ताओं की एक टीम ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) ने AGI की कुछ प्रमुख कुंजियाँ छोड़ी हैं। यह न केवल मानव-जैसे दिखने वाले AI का कोड है, बल्कि उन्होंने पूरी चीज़ को ओपन-सोर्स भी कर दिया है।
अब आप ढेर सारे नए, मानव-एनोटेटेड डेटा को फीड किए बिना बेहतर एलएलएम विकसित कर सकते हैं।
सबसे पहले, आइए यहां गेम-चेंजर पर ध्यान केंद्रित करें: एक स्व-शिक्षण भाषा मॉडल।
यह विधि एक भाषा मॉडल को खुद को सिखाने की सुविधा देती है, जो भारी मात्रा में नए, बाहरी रूप से क्यूरेट किए गए डेटा के बिना बेहतर और बेहतर बनती जाती है।
मैं पूरी तरह से डीप-डाइव मोड में चला गया - उनका पेपर पढ़ा (" सेल्फ-प्ले फाइन-ट्यूनिंग कमजोर भाषा मॉडल को मजबूत भाषा मॉडल में परिवर्तित करता है "), Google जेमिनी अल्ट्रा और जीपीटी -4 के साथ हैकरन्यूज , एक्स और रेडिट जैसे मंचों पर अंतर्दृष्टि खंगाली। टर्बो - और SPIN की मूल अवधारणा ने मेरी तकनीक-प्रेमी रूपक शैली को झकझोर कर रख दिया:
एक ऐसे भाषा मॉडल से शुरुआत करने की कल्पना करें जिसने बुनियादी कौशल (मान लें कि बातचीत के शिष्टाचार) में महारत हासिल कर ली है। SPIN के साथ, मॉडल आंतरिक 'बातचीत' उत्पन्न करता है, जो वह पहले से जानता है उसके आधार पर एक डेटासेट बनाता है।
त्वरित ज्ञान विस्तार!
चरण दो में एक नया मॉडल सामने लाना और उसे एक कार्य देना शामिल है: मशीन-जनित चैट और वास्तविक मानव संचार के बीच अंतर पहचानना। यह मूल मॉडल को अपने खेल को बढ़ाने के लिए मजबूर करता है, और पहचान से बचने के लिए प्रत्येक प्रतिक्रिया के साथ अधिक से अधिक मानव जैसा बनता जाता है।
यहीं पर चीजें दिलचस्प हो जाती हैं। उन्होंने zephyr-7b-sft-full ( अल्ट्राचैट कॉर्पस के साथ पहले से ही ठीक-ठीक) के साथ शुरुआत की। SPIN ने इस बेस मॉडल के साथ एक पुनरावृत्त प्रशिक्षण प्रणाली शुरू की, जिसमें बाहरी रूप से बनाए गए ढेर सारे नए डेटा पर भरोसा किए बिना इसमें तेजी से सुधार किया गया।
हम आमतौर पर सोचते हैं कि मशीन लर्निंग, विशेष रूप से इन विशाल भाषा मॉडलों के लिए, सावधानीपूर्वक क्यूरेटेड और लेबल किए गए डेटा के बोटलोड की आवश्यकता होती है। प्रत्यक्ष वरीयता अनुकूलन (डीपीओ) विधियों में प्रशिक्षण के लिए मनुष्यों को एक-दूसरे के विरुद्ध एआई प्रतिक्रियाओं की श्रमसाध्य रेटिंग करना शामिल है। यह न केवल श्रम-गहन है, बल्कि जैसे-जैसे डेटासेट बढ़ता है, इसकी लागत भी बढ़ती है।
प्रत्यक्ष वरीयता अनुकूलन (डीटीओ) एक प्रशिक्षण पद्धति है जहां एक मॉडल को प्राथमिकताओं के डेटासेट का उपयोग करके ठीक किया जाता है, जिसमें अक्सर मानवीय निर्णय शामिल होते हैं जो यह तय करते हैं कि मॉडल-जनित प्रतिक्रियाओं में से कौन सा पसंद किया जाता है। इस विधि में नए डेटा एकत्र करने की आवश्यकता होती है जहां प्रत्येक टुकड़े को इन प्राथमिकताओं के आधार पर लेबल किया जाता है, जो संसाधन-गहन हो सकता है।
इसके विपरीत, SPIN पुनरावृत्त स्व-प्ले का उपयोग करता है, जिससे नए डेटा की आवश्यकता काफी कम हो जाती है।
पहले पुनरावृत्ति तक, अधिकांश मामलों में एसपीआईएन का प्रदर्शन पहले से ही डीपीओ से अधिक है , जो मॉडल प्रदर्शन को बढ़ाने के लिए मौजूदा डेटा का लाभ उठाने में इसकी दक्षता और प्रभावशीलता को उजागर करता है।
SPIN अधिक व्यापक डेटासेट पर प्रशिक्षित मॉडलों के साथ समान प्रदर्शन हासिल करके अपनी ताकत दिखाता है। पुनरावृत्तीय प्रशिक्षण की प्रक्रिया, कई पुनरावृत्तियों में मॉडल के प्रदर्शन को व्यवस्थित रूप से बढ़ाती है, विशेष रूप से ट्रुथफुलक्यूए और जीएसएम8के जैसे चुनौतीपूर्ण बेंचमार्क पर पर्याप्त सुधार दिखाती है ।
इसलिए, SPIN, अतिरिक्त मानव-एनोटेटेड डेटा की आवश्यकता के बिना, स्व-प्ले के माध्यम से उत्पन्न सिंथेटिक डेटासेट का कुशलतापूर्वक लाभ उठाकर, DPO सहित पारंपरिक प्रशिक्षण विधियों से बेहतर प्रदर्शन करता है।
SPIN अपने सेल्फ-प्ले डायनामिक के साथ एक कर्वबॉल फेंकता है।
इसे एक भाषा मॉडल की तरह समझें जो भाषाई बॉक्सिंग रिंग में खुद से प्रतिस्पर्धा कर रहा है, और प्रत्येक राउंड उसे नई तरकीबें सिखा रहा है।
SPIN की डेटा दक्षता नए मानव-एनोटेटेड डेटासेट की आवश्यकता को दरकिनार कर देती है।
लेकिन इससे भी महत्वपूर्ण बात यह है कि यह सुधार लूप को तेज करता है , जिससे मॉडल मानव-जैसा पाठ उत्पन्न करने में तेजी से कुशल हो जाता है ।
SPIN न केवल बड़े बाहरी डेटासेट पर प्रशिक्षित मॉडल से मेल खाता प्रतीत होता है, बल्कि इसकी पुनरावृत्त शक्ति का अर्थ लगातार लाभ है क्योंकि यह अनिवार्य रूप से अपने स्वयं के आउटपुट का अध्ययन करता है।
दिमाग हिला देने वाला, है ना?
नूस रिसर्च के सह-संस्थापक @Teknium1 की बात सही है। ये बड़े राजभाषा मॉडल मुफ़्त में अधिक स्मार्ट नहीं बनते। SPIN के साथ पुनरावृत्तीय पुन: प्रशिक्षण में हर बार सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) की महंगी प्रक्रिया शामिल होती है।
हालाँकि, उन्होंने यह भी उल्लेख किया है कि "मुझे लगता है कि यह इसके लायक है!"। इसके अलावा, त्वरित विकास और मानव-एनोटेटेड डेटा पर संभावित रूप से कम निर्भरता के दीर्घकालिक लाभ प्रारंभिक निवेश से अधिक हैं? यह रोमांचक प्रश्न है!
कल ही, यूसीएलए में कंप्यूटर विज्ञान के एसोसिएट प्रोफेसर और बाइटडांस में एआई अनुसंधान के निदेशक क्वानक्वान गु ने घोषणा की कि अब कोई भी SPIN मॉडल और डेटासेट का उपयोग कर सकता है । इसका मतलब सिर्फ कोड और डेटासेट नहीं है, बल्कि आपकी खुद की एआई यात्रा शुरू करने के लिए पूर्व-प्रशिक्षित मॉडल भी हैं।
SPIN मानवीय विचार प्रक्रियाओं को प्रतिबिंबित करता है।
ऐसा पाठ उत्पन्न करके जो मानवीय लगता है, SPIN तर्क के मूलभूत तत्वों पर संकेत देता है जो भविष्य में AI कर सकता है। क्या आप जानते हैं कि कुछ एलएलएम आउटपुट कैसे रोबोटिक लगते हैं? खैर, SPIN अलग है। यह वास्तव में इंसानों के सोचने के तरीके को प्रतिबिंबित करता है। जिस तरह से यह लिखता है वह बहुत स्वाभाविक लगता है, यह एक झलक की तरह है कि भविष्य में एआई अपने लिए तर्क करने में कैसे सक्षम हो सकता है।
यह केवल चैटबॉट्स को अच्छा बनाने के बारे में नहीं है।
यह एक प्रकार की डिजिटल सोच बनाने के बारे में है जो हमारी तरह काम करती है। उस प्रकार का AI बहुत अधिक लचीला और वास्तविक समझ में सक्षम होगा।
जबकि SPIN भाषा मॉडल को और अधिक स्वाभाविक बनाने की दिशा में एक बड़ी छलांग है, उत्साहित होना और इसका अर्थ अधिक आंकना आसान है ।
इससे उत्पन्न पाठ प्रभावशाली है (आप डेटाबेस पर नज़र डाल सकते हैं), लेकिन यह याद रखना महत्वपूर्ण है कि एआई में अभी तक सच्चे स्वतंत्र तर्क की क्षमता नहीं है।
हालाँकि SPIN वास्तविक AGI नहीं है, लेकिन जिस तरह से यह मानव-जैसे लेखन की नकल करता है, वह इस बात में प्रभावशाली प्रगति दर्शाता है कि AI भविष्य में भाषा को कैसे संसाधित और उपयोग कर सकता है।
फिर भी, यह आश्चर्यजनक संभावनाओं का सुझाव देता है कि भविष्य में एआई और भाषा कैसे विकसित हो सकती है (यदि आपको याद है कि हम हॉकी स्टिक की शुरुआत में हैं, तो भविष्य आज से ज्यादा दूर नहीं है...)
तरंग प्रभाव बहुत बड़ा होगा और यहां आपका प्रवेश पास है:
संक्षेप में, इसकी पुनरावृत्तीय, आत्म-सुधार पद्धति एलएलएम बनाने की दिशा में एक महत्वपूर्ण प्रगति है जो वास्तव में मानव-जैसे संचार में संलग्न हो सकती है।
मूल रूप से मेरे एक्स खाते पर साझा किया गया।