AI भूकंप के लिए तैयार हो जाइए! यूसीएलए शोधकर्ताओं की एक टीम ( n, , , ) ने AGI की कुछ प्रमुख कुंजियाँ छोड़ी हैं। यह न केवल मानव-जैसे दिखने वाले AI का कोड है, बल्कि उन्होंने पूरी चीज़ को ओपन-सोर्स भी कर दिया है। @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu अब आप ढेर सारे नए, मानव-एनोटेटेड डेटा को फीड किए बिना बेहतर एलएलएम विकसित कर सकते हैं। सबसे पहले, आइए यहां गेम-चेंजर पर ध्यान केंद्रित करें: एक स्व-शिक्षण भाषा मॉडल। यह विधि एक भाषा मॉडल को जो भारी मात्रा में नए, बाहरी रूप से क्यूरेट किए गए डेटा के बिना बेहतर और बेहतर बनती जाती है। खुद को सिखाने की सुविधा देती है, स्पिन का परिचय: सेल्फ-प्ले फाइन-ट्यूनिंग कमजोर भाषा मॉडल को मजबूत भाषा मॉडल में परिवर्तित करता है मैं पूरी तरह से डीप-डाइव मोड में चला गया - उनका पेपर पढ़ा (" "), Google जेमिनी अल्ट्रा और जीपीटी -4 के साथ , और जैसे मंचों पर अंतर्दृष्टि खंगाली। टर्बो - और SPIN की मूल अवधारणा ने मेरी तकनीक-प्रेमी रूपक शैली को झकझोर कर रख दिया: सेल्फ-प्ले फाइन-ट्यूनिंग कमजोर भाषा मॉडल को मजबूत भाषा मॉडल में परिवर्तित करता है हैकरन्यूज एक्स रेडिट 'बातचीत साथी' युक्ति एक ऐसे भाषा मॉडल से शुरुआत करने की कल्पना करें जिसने बुनियादी कौशल (मान लें कि बातचीत के शिष्टाचार) में महारत हासिल कर ली है। SPIN के साथ, मॉडल जो वह पहले से जानता है उसके आधार पर एक डेटासेट बनाता है। आंतरिक 'बातचीत' उत्पन्न करता है, त्वरित ज्ञान विस्तार! चरण दो में एक नया मॉडल सामने लाना और उसे एक कार्य देना शामिल है: और वास्तविक मानव संचार के बीच अंतर पहचानना। यह मूल मॉडल को अपने खेल को बढ़ाने के लिए मजबूर करता है, और पहचान से बचने के लिए प्रत्येक प्रतिक्रिया के साथ अधिक से अधिक बनता जाता है। मशीन-जनित चैट मानव जैसा यहीं पर चीजें दिलचस्प हो जाती हैं। उन्होंने ( के साथ पहले से ही ठीक-ठीक) के साथ शुरुआत की। SPIN ने इस बेस मॉडल के साथ एक पुनरावृत्त प्रशिक्षण प्रणाली शुरू की, जिसमें बाहरी रूप से बनाए गए ढेर सारे नए डेटा पर भरोसा किए बिना इसमें तेजी से सुधार किया गया। zephyr-7b-sft-full अल्ट्राचैट कॉर्पस स्पिन बनाम पारंपरिक एआई प्रशिक्षण (डीपीओ): एक नया चैंपियन? हम आमतौर पर सोचते हैं कि मशीन लर्निंग, विशेष रूप से इन विशाल भाषा मॉडलों के लिए, सावधानीपूर्वक क्यूरेटेड और लेबल किए गए डेटा के बोटलोड की आवश्यकता होती है। विधियों में प्रशिक्षण के लिए मनुष्यों को एक-दूसरे के विरुद्ध एआई प्रतिक्रियाओं की श्रमसाध्य रेटिंग करना शामिल है। यह न केवल श्रम-गहन है, बल्कि जैसे-जैसे डेटासेट बढ़ता है, इसकी लागत भी बढ़ती है। प्रत्यक्ष वरीयता अनुकूलन (डीपीओ) प्रत्यक्ष वरीयता अनुकूलन (डीटीओ) एक प्रशिक्षण पद्धति है जहां एक मॉडल को प्राथमिकताओं के डेटासेट का उपयोग करके ठीक किया जाता है, जिसमें अक्सर मानवीय निर्णय शामिल होते हैं जो यह तय करते हैं कि मॉडल-जनित प्रतिक्रियाओं में से कौन सा पसंद किया जाता है। इस विधि में नए डेटा एकत्र करने की आवश्यकता होती है जहां प्रत्येक टुकड़े को इन प्राथमिकताओं के आधार पर लेबल किया जाता है, जो संसाधन-गहन हो सकता है। इसके विपरीत, SPIN उपयोग करता है, जिससे नए डेटा की आवश्यकता काफी कम हो जाती है। पुनरावृत्त स्व-प्ले का पहले पुनरावृत्ति तक, , जो मॉडल प्रदर्शन को बढ़ाने के लिए मौजूदा डेटा का लाभ उठाने में इसकी दक्षता और प्रभावशीलता को उजागर करता है। अधिकांश मामलों में एसपीआईएन का प्रदर्शन पहले से ही डीपीओ से अधिक है SPIN हासिल करके अपनी ताकत दिखाता है। की प्रक्रिया, कई पुनरावृत्तियों में मॉडल के प्रदर्शन को व्यवस्थित रूप से बढ़ाती है, विशेष रूप से ट्रुथफुलक्यूए और जीएसएम8के जैसे चुनौतीपूर्ण बेंचमार्क पर । अधिक व्यापक डेटासेट पर प्रशिक्षित मॉडलों के साथ समान प्रदर्शन पुनरावृत्तीय प्रशिक्षण पर्याप्त सुधार दिखाती है इसलिए, SPIN, अतिरिक्त मानव-एनोटेटेड डेटा की आवश्यकता के बिना, स्व-प्ले के माध्यम से उत्पन्न सिंथेटिक डेटासेट का कुशलतापूर्वक लाभ उठाकर, DPO सहित पारंपरिक प्रशिक्षण विधियों से बेहतर प्रदर्शन करता है। SPIN की ताकतें और लागत क्या हैं? SPIN अपने सेल्फ-प्ले डायनामिक के साथ एक कर्वबॉल फेंकता है। इसे एक भाषा मॉडल की तरह समझें जो भाषाई बॉक्सिंग रिंग में खुद से प्रतिस्पर्धा कर रहा है, और प्रत्येक राउंड उसे नई तरकीबें सिखा रहा है। SPIN की डेटा दक्षता नए मानव-एनोटेटेड डेटासेट की आवश्यकता को दरकिनार कर देती है। लेकिन इससे भी महत्वपूर्ण बात यह है कि यह , । सुधार लूप को तेज करता है जिससे मॉडल मानव-जैसा पाठ उत्पन्न करने में तेजी से कुशल हो जाता है SPIN न केवल बड़े बाहरी डेटासेट पर प्रशिक्षित मॉडल से मेल खाता प्रतीत होता है, बल्कि इसकी पुनरावृत्त शक्ति का अर्थ लगातार लाभ है क्योंकि यह अनिवार्य रूप से अपने स्वयं के आउटपुट का अध्ययन करता है। दिमाग हिला देने वाला, है ना? ठीक है, चलो कमरे में हाथी से बात करें - लागत नूस रिसर्च के सह-संस्थापक की बात सही है। ये बड़े राजभाषा मॉडल मुफ़्त में अधिक स्मार्ट नहीं बनते। SPIN के साथ पुनरावृत्तीय पुन: प्रशिक्षण में हर बार सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) की महंगी प्रक्रिया शामिल होती है। @Teknium1 हालाँकि, उन्होंने यह भी उल्लेख किया है कि "मुझे लगता है कि यह इसके लायक है!"। इसके अलावा, त्वरित विकास और मानव-एनोटेटेड डेटा पर संभावित रूप से कम निर्भरता के दीर्घकालिक लाभ प्रारंभिक निवेश से अधिक हैं? यह रोमांचक प्रश्न है! बूम! यह ओपन-सोर्स एआई टाइम है कल ही, यूसीएलए में कंप्यूटर विज्ञान के एसोसिएट प्रोफेसर और बाइटडांस में एआई अनुसंधान के निदेशक घोषणा की कि । इसका मतलब सिर्फ कोड और डेटासेट नहीं है, बल्कि आपकी खुद की एआई यात्रा शुरू करने के लिए पूर्व-प्रशिक्षित मॉडल भी हैं। क्वानक्वान गु ने अब कोई भी SPIN मॉडल और डेटासेट का उपयोग कर सकता है SPIN मानवीय विचार प्रक्रियाओं को प्रतिबिंबित करता है। ऐसा पाठ उत्पन्न करके जो मानवीय लगता है, SPIN तर्क के मूलभूत तत्वों पर संकेत देता है जो भविष्य में AI कर सकता है। क्या आप जानते हैं कि कुछ एलएलएम आउटपुट कैसे रोबोटिक लगते हैं? खैर, SPIN अलग है। यह वास्तव में इंसानों के सोचने के तरीके को प्रतिबिंबित करता है। जिस तरह से यह लिखता है वह बहुत स्वाभाविक लगता है, यह एक झलक की तरह है कि भविष्य में एआई अपने लिए तर्क करने में कैसे सक्षम हो सकता है। यह केवल चैटबॉट्स को अच्छा बनाने के बारे में नहीं है। यह एक प्रकार की डिजिटल सोच बनाने के बारे में है जो हमारी तरह काम करती है। उस प्रकार का AI बहुत अधिक लचीला और वास्तविक समझ में सक्षम होगा। जबकि SPIN भाषा मॉडल को और अधिक स्वाभाविक बनाने की दिशा में एक बड़ी छलांग है, । उत्साहित होना और इसका अर्थ अधिक आंकना आसान है इससे उत्पन्न पाठ प्रभावशाली है (आप डेटाबेस पर नज़र डाल सकते हैं), लेकिन यह याद रखना महत्वपूर्ण है कि एआई में अभी तक सच्चे स्वतंत्र तर्क की क्षमता नहीं है। हालाँकि SPIN वास्तविक नहीं है, लेकिन जिस तरह से यह मानव-जैसे लेखन की नकल करता है, वह इस बात में प्रभावशाली प्रगति दर्शाता है कि AI भविष्य में भाषा को कैसे संसाधित और उपयोग कर सकता है। AGI फिर भी, यह आश्चर्यजनक संभावनाओं का सुझाव देता है कि भविष्य में एआई और भाषा कैसे विकसित हो सकती है (यदि आपको याद है कि हम हॉकी स्टिक की शुरुआत में हैं, तो भविष्य आज से ज्यादा दूर नहीं है...) तरंग प्रभाव बहुत बड़ा होगा और यहां आपका प्रवेश पास है: कोड: पर उपलब्ध: GitHub https://github.com/uclaml/SPIN डेटा: पर होस्ट किया गया, डेटासेट SPIN पद्धतियों को लागू करने के इच्छुक लोगों के लिए आसानी से उपलब्ध है: हगिंग फेस https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a… मॉडल: पूर्व-प्रशिक्षित मॉडल भी उपलब्ध हैं, जो SPIN-उन्नत भाषा मॉडल के साथ प्रयोग के लिए एक शुरुआत प्रदान करते हैं: https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40… प्रोजेक्ट पेज: व्यापक अंतर्दृष्टि और अधिक जानकारी के लिए, प्रोजेक्ट पेज एक अमूल्य संसाधन है: https://uclaml.github.io/SPIN/ संक्षेप में, इसकी पुनरावृत्तीय, आत्म-सुधार पद्धति एलएलएम बनाने की दिशा में एक महत्वपूर्ण प्रगति है जो वास्तव में मानव-जैसे संचार में संलग्न हो सकती है। मूल रूप से मेरे पर साझा किया गया। एक्स खाते