2,701 रीडिंग

एजीआई ब्लूप्रिंट? यूसीएलए शोधकर्ता ओपन-सोर्स स्पिन-एक स्व-सुधार भाषा मॉडल

द्वारा Muratcan Koylan5m2024/02/12

बहुत लंबा; पढ़ने के लिए

यूसीएलए के शोधकर्ताओं ने SPIN पेश किया है, जो एक स्व-शिक्षण भाषा मॉडल है जो अपनी मानव-जैसी पाठ पीढ़ी के साथ AI में क्रांति ला रहा है। एसपीआईएन का ओपन-सोर्स रिलीज़ इसकी क्षमताओं तक अभूतपूर्व पहुंच प्रदान करता है, जो प्राकृतिक भाषा प्रसंस्करण में प्रगति और वास्तव में मानव-जैसे संचार में सक्षम एआई मॉडल के विकास का मार्ग प्रशस्त करता है।

featured image - एजीआई ब्लूप्रिंट? यूसीएलए शोधकर्ता ओपन-सोर्स स्पिन-एक स्व-सुधार भाषा मॉडल

AI भूकंप के लिए तैयार हो जाइए! यूसीएलए शोधकर्ताओं की एक टीम ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) ने AGI की कुछ प्रमुख कुंजियाँ छोड़ी हैं। यह न केवल मानव-जैसे दिखने वाले AI का कोड है, बल्कि उन्होंने पूरी चीज़ को ओपन-सोर्स भी कर दिया है।

अब आप ढेर सारे नए, मानव-एनोटेटेड डेटा को फीड किए बिना बेहतर एलएलएम विकसित कर सकते हैं।

सबसे पहले, आइए यहां गेम-चेंजर पर ध्यान केंद्रित करें: एक स्व-शिक्षण भाषा मॉडल।

यह विधि एक भाषा मॉडल को खुद को सिखाने की सुविधा देती है, जो भारी मात्रा में नए, बाहरी रूप से क्यूरेट किए गए डेटा के बिना बेहतर और बेहतर बनती जाती है।

स्पिन का परिचय: सेल्फ-प्ले फाइन-ट्यूनिंग कमजोर भाषा मॉडल को मजबूत भाषा मॉडल में परिवर्तित करता है

मैं पूरी तरह से डीप-डाइव मोड में चला गया - उनका पेपर पढ़ा (" सेल्फ-प्ले फाइन-ट्यूनिंग कमजोर भाषा मॉडल को मजबूत भाषा मॉडल में परिवर्तित करता है "), Google जेमिनी अल्ट्रा और जीपीटी -4 के साथ हैकरन्यूज , एक्स और रेडिट जैसे मंचों पर अंतर्दृष्टि खंगाली। टर्बो - और SPIN की मूल अवधारणा ने मेरी तकनीक-प्रेमी रूपक शैली को झकझोर कर रख दिया:

'बातचीत साथी' युक्ति

एक ऐसे भाषा मॉडल से शुरुआत करने की कल्पना करें जिसने बुनियादी कौशल (मान लें कि बातचीत के शिष्टाचार) में महारत हासिल कर ली है। SPIN के साथ, मॉडल आंतरिक 'बातचीत' उत्पन्न करता है, जो वह पहले से जानता है उसके आधार पर एक डेटासेट बनाता है।

त्वरित ज्ञान विस्तार!

चरण दो में एक नया मॉडल सामने लाना और उसे एक कार्य देना शामिल है: मशीन-जनित चैट और वास्तविक मानव संचार के बीच अंतर पहचानना। यह मूल मॉडल को अपने खेल को बढ़ाने के लिए मजबूर करता है, और पहचान से बचने के लिए प्रत्येक प्रतिक्रिया के साथ अधिक से अधिक मानव जैसा बनता जाता है।

यहीं पर चीजें दिलचस्प हो जाती हैं। उन्होंने zephyr-7b-sft-full ( अल्ट्राचैट कॉर्पस के साथ पहले से ही ठीक-ठीक) के साथ शुरुआत की। SPIN ने इस बेस मॉडल के साथ एक पुनरावृत्त प्रशिक्षण प्रणाली शुरू की, जिसमें बाहरी रूप से बनाए गए ढेर सारे नए डेटा पर भरोसा किए बिना इसमें तेजी से सुधार किया गया।

स्पिन बनाम पारंपरिक एआई प्रशिक्षण (डीपीओ): एक नया चैंपियन?

हम आमतौर पर सोचते हैं कि मशीन लर्निंग, विशेष रूप से इन विशाल भाषा मॉडलों के लिए, सावधानीपूर्वक क्यूरेटेड और लेबल किए गए डेटा के बोटलोड की आवश्यकता होती है। प्रत्यक्ष वरीयता अनुकूलन (डीपीओ) विधियों में प्रशिक्षण के लिए मनुष्यों को एक-दूसरे के विरुद्ध एआई प्रतिक्रियाओं की श्रमसाध्य रेटिंग करना शामिल है। यह न केवल श्रम-गहन है, बल्कि जैसे-जैसे डेटासेट बढ़ता है, इसकी लागत भी बढ़ती है।

प्रत्यक्ष वरीयता अनुकूलन (डीटीओ) एक प्रशिक्षण पद्धति है जहां एक मॉडल को प्राथमिकताओं के डेटासेट का उपयोग करके ठीक किया जाता है, जिसमें अक्सर मानवीय निर्णय शामिल होते हैं जो यह तय करते हैं कि मॉडल-जनित प्रतिक्रियाओं में से कौन सा पसंद किया जाता है। इस विधि में नए डेटा एकत्र करने की आवश्यकता होती है जहां प्रत्येक टुकड़े को इन प्राथमिकताओं के आधार पर लेबल किया जाता है, जो संसाधन-गहन हो सकता है।

इसके विपरीत, SPIN पुनरावृत्त स्व-प्ले का उपयोग करता है, जिससे नए डेटा की आवश्यकता काफी कम हो जाती है।

पहले पुनरावृत्ति तक, अधिकांश मामलों में एसपीआईएन का प्रदर्शन पहले से ही डीपीओ से अधिक है , जो मॉडल प्रदर्शन को बढ़ाने के लिए मौजूदा डेटा का लाभ उठाने में इसकी दक्षता और प्रभावशीलता को उजागर करता है।

SPIN अधिक व्यापक डेटासेट पर प्रशिक्षित मॉडलों के साथ समान प्रदर्शन हासिल करके अपनी ताकत दिखाता है। पुनरावृत्तीय प्रशिक्षण की प्रक्रिया, कई पुनरावृत्तियों में मॉडल के प्रदर्शन को व्यवस्थित रूप से बढ़ाती है, विशेष रूप से ट्रुथफुलक्यूए और जीएसएम8के जैसे चुनौतीपूर्ण बेंचमार्क पर पर्याप्त सुधार दिखाती है ।

इसलिए, SPIN, अतिरिक्त मानव-एनोटेटेड डेटा की आवश्यकता के बिना, स्व-प्ले के माध्यम से उत्पन्न सिंथेटिक डेटासेट का कुशलतापूर्वक लाभ उठाकर, DPO सहित पारंपरिक प्रशिक्षण विधियों से बेहतर प्रदर्शन करता है।

SPIN की ताकतें और लागत क्या हैं?

SPIN अपने सेल्फ-प्ले डायनामिक के साथ एक कर्वबॉल फेंकता है।

इसे एक भाषा मॉडल की तरह समझें जो भाषाई बॉक्सिंग रिंग में खुद से प्रतिस्पर्धा कर रहा है, और प्रत्येक राउंड उसे नई तरकीबें सिखा रहा है।

SPIN की डेटा दक्षता नए मानव-एनोटेटेड डेटासेट की आवश्यकता को दरकिनार कर देती है।

लेकिन इससे भी महत्वपूर्ण बात यह है कि यह सुधार लूप को तेज करता है , जिससे मॉडल मानव-जैसा पाठ उत्पन्न करने में तेजी से कुशल हो जाता है ।

SPIN न केवल बड़े बाहरी डेटासेट पर प्रशिक्षित मॉडल से मेल खाता प्रतीत होता है, बल्कि इसकी पुनरावृत्त शक्ति का अर्थ लगातार लाभ है क्योंकि यह अनिवार्य रूप से अपने स्वयं के आउटपुट का अध्ययन करता है।

दिमाग हिला देने वाला, है ना?

ठीक है, चलो कमरे में हाथी से बात करें - लागत

नूस रिसर्च के सह-संस्थापक @Teknium1 की बात सही है। ये बड़े राजभाषा मॉडल मुफ़्त में अधिक स्मार्ट नहीं बनते। SPIN के साथ पुनरावृत्तीय पुन: प्रशिक्षण में हर बार सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) की महंगी प्रक्रिया शामिल होती है।

हालाँकि, उन्होंने यह भी उल्लेख किया है कि "मुझे लगता है कि यह इसके लायक है!"। इसके अलावा, त्वरित विकास और मानव-एनोटेटेड डेटा पर संभावित रूप से कम निर्भरता के दीर्घकालिक लाभ प्रारंभिक निवेश से अधिक हैं? यह रोमांचक प्रश्न है!

बूम! यह ओपन-सोर्स एआई टाइम है

कल ही, यूसीएलए में कंप्यूटर विज्ञान के एसोसिएट प्रोफेसर और बाइटडांस में एआई अनुसंधान के निदेशक क्वानक्वान गु ने घोषणा की कि अब कोई भी SPIN मॉडल और डेटासेट का उपयोग कर सकता है । इसका मतलब सिर्फ कोड और डेटासेट नहीं है, बल्कि आपकी खुद की एआई यात्रा शुरू करने के लिए पूर्व-प्रशिक्षित मॉडल भी हैं।

SPIN मानवीय विचार प्रक्रियाओं को प्रतिबिंबित करता है।

ऐसा पाठ उत्पन्न करके जो मानवीय लगता है, SPIN तर्क के मूलभूत तत्वों पर संकेत देता है जो भविष्य में AI कर सकता है। क्या आप जानते हैं कि कुछ एलएलएम आउटपुट कैसे रोबोटिक लगते हैं? खैर, SPIN अलग है। यह वास्तव में इंसानों के सोचने के तरीके को प्रतिबिंबित करता है। जिस तरह से यह लिखता है वह बहुत स्वाभाविक लगता है, यह एक झलक की तरह है कि भविष्य में एआई अपने लिए तर्क करने में कैसे सक्षम हो सकता है।

यह केवल चैटबॉट्स को अच्छा बनाने के बारे में नहीं है।

यह एक प्रकार की डिजिटल सोच बनाने के बारे में है जो हमारी तरह काम करती है। उस प्रकार का AI बहुत अधिक लचीला और वास्तविक समझ में सक्षम होगा।

जबकि SPIN भाषा मॉडल को और अधिक स्वाभाविक बनाने की दिशा में एक बड़ी छलांग है, उत्साहित होना और इसका अर्थ अधिक आंकना आसान है ।

इससे उत्पन्न पाठ प्रभावशाली है (आप डेटाबेस पर नज़र डाल सकते हैं), लेकिन यह याद रखना महत्वपूर्ण है कि एआई में अभी तक सच्चे स्वतंत्र तर्क की क्षमता नहीं है।

हालाँकि SPIN वास्तविक AGI नहीं है, लेकिन जिस तरह से यह मानव-जैसे लेखन की नकल करता है, वह इस बात में प्रभावशाली प्रगति दर्शाता है कि AI भविष्य में भाषा को कैसे संसाधित और उपयोग कर सकता है।

फिर भी, यह आश्चर्यजनक संभावनाओं का सुझाव देता है कि भविष्य में एआई और भाषा कैसे विकसित हो सकती है (यदि आपको याद है कि हम हॉकी स्टिक की शुरुआत में हैं, तो भविष्य आज से ज्यादा दूर नहीं है...)

तरंग प्रभाव बहुत बड़ा होगा और यहां आपका प्रवेश पास है:

कोड: GitHub पर उपलब्ध: https://github.com/uclaml/SPIN
डेटा: हगिंग फेस पर होस्ट किया गया, डेटासेट SPIN पद्धतियों को लागू करने के इच्छुक लोगों के लिए आसानी से उपलब्ध है: https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…
मॉडल: पूर्व-प्रशिक्षित मॉडल भी उपलब्ध हैं, जो SPIN-उन्नत भाषा मॉडल के साथ प्रयोग के लिए एक शुरुआत प्रदान करते हैं: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…
प्रोजेक्ट पेज: व्यापक अंतर्दृष्टि और अधिक जानकारी के लिए, प्रोजेक्ट पेज एक अमूल्य संसाधन है: https://uclaml.github.io/SPIN/

संक्षेप में, इसकी पुनरावृत्तीय, आत्म-सुधार पद्धति एलएलएम बनाने की दिशा में एक महत्वपूर्ण प्रगति है जो वास्तव में मानव-जैसे संचार में संलग्न हो सकती है।