15 नवंबर को, मेटाएआई और कोड के साथ पेपर्स ने गैलेक्टिका को जारी करने की घोषणा की, जो एक गेम-चेंजर, ओपन-सोर्स बड़ा भाषा मॉडल है, जिसे 120 बिलियन मापदंडों के साथ वैज्ञानिक ज्ञान पर प्रशिक्षित किया गया है। जैसा कि मेरे एक मित्र , मॉडल श्वेतपत्र, समीक्षाएं, विकिपीडिया पृष्ठ और कोड लिख सकता है। यह जानता है कि कैसे उद्धरण देना है और समीकरण कैसे लिखना है। यह एआई और विज्ञान के लिए एक बड़ी बात है। ने ट्विटर पर साझा किया है 17 नवंबर को गैलेक्टिका को बंद कर दिया गया था। क्यों? क्योंकि, सभी गहन शिक्षण मॉडलों की तरह, यह हाथ में लिए गए कार्य को नहीं समझता था और कई मामलों में गलत था। यह एक मुद्दा नहीं होना चाहिए, खासकर अगर हम यह कहते हुए चेतावनी जोड़ते हैं कि मॉडल गलत हो सकता है और उस पर आंख मूंदकर भरोसा नहीं करना चाहिए। जैसे किसी ने विकिपीडिया पर भरोसा नहीं किया, हम इसे हाई स्कूल परियोजनाओं में एक संदर्भ के रूप में नहीं रख सकते। मुद्दा यह है कि । गैलेक्टिका गलत या पक्षपाती था लेकिन सही और आधिकारिक लग रहा था फिर भी, मॉडल शोधकर्ताओं के लिए उपलब्ध है, और मेरा मानना है कि इसे ओपन-सोर्स रखना महत्वपूर्ण है। जैसा कि मेरे एक अन्य मित्र ने साझा किया, नए मॉडल के इर्द-गिर्द सारा ड्रामा कुछ ज्यादा ही लगता है। बेशक, मॉडल बिल्कुल सही नहीं है, अन्य सभी की तरह जो वर्तमान में ऑनलाइन उपलब्ध हैं। इसकी सीमाओं का परीक्षण करने, इस पर काम करने और इसे बेहतर बनाने के लिए हमें इसकी ऑनलाइन आवश्यकता है। हमें इस प्रकार के प्रकाशनों को छात्रों के रूप में देखना चाहिए और बंद होने या रद्द होने के डर के बिना गलतियों और सुधारों की अनुमति देनी चाहिए। वैसे भी, हम यहां उस पर चर्चा करने के लिए नहीं हैं। उम्मीद है, । यह जल्द ही ऑनलाइन वापस आ जाएगा हम यहां यह देखने के लिए हैं कि गैलेक्टिका क्या है, या थी, और यह कैसे लेखन पत्र, समीक्षाएं, कोड, और बहुत कुछ हासिल कर सकती है ... वीडियो में और जानें संदर्भ ►पूरा लेख पढ़ें: ► टेलर एट अल।, 2022: गैलेक्टिका, ►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया गया है!): https://www.louisbouchard.ai/galactica/ https://galactica.org/ https://www.louisbouchard.ai/newsletter/ वीडियो ट्रांसक्रिप्ट 0:00 15 नवंबर को मेटैरी और कागजात 0:03 कोड के साथ जारी करने की घोषणा की 0:04 गैलेटिका एक गेम चेंजर ओपन सोर्स है 0:07 बड़े भाषा मॉडल पर प्रशिक्षित 0:09 120 बिलियन के साथ वैज्ञानिक ज्ञान 0:12 मेरे एक मित्र द्वारा साझा किए गए पैरामीटर 0:14 ट्विटर पर मॉडल सफेद लिख सकती है 0:16 पेपर विकिपीडिया पृष्ठों और कोड की समीक्षा करता है 0:19 यह जानता है कि कैसे उद्धृत करना है और कैसे लिखना है 0:22 समीकरण यह वास्तव में एक तरह का बड़ा है 0:24 17 नवंबर को एआई और विज्ञान के लिए सौदा 0:28 गैलेक्टिका को बंद कर दिया गया था क्यों क्योंकि 0:31 सभी गहन शिक्षण मॉडल के साथ ऐसा नहीं हुआ 0:34 कार्य को हाथ में समझें और था 0:36 कई मामलों में गलत यह नहीं होना चाहिए 0:39 मुद्दा खासकर अगर हम एक चेतावनी जोड़ते हैं 0:41 यह कहना कि मॉडल गलत हो सकता है और नहीं 0:43 किसी की तरह आंख मूंदकर भरोसा करें 0:45 विश्वसनीय विकिपीडिया हम इसे इस रूप में नहीं रख सकते 0:48 हाई स्कूल परियोजनाओं में एक संदर्भ 0:50 मुद्दा यह था कि गैलेक्टिका गलत थी और 0:52 पक्षपाती लेकिन सही और सार्थक लग रहा था 0:55 अभी भी मॉडल उपलब्ध है 0:57 शोधकर्ताओं और मुझे विश्वास है कि यह महत्वपूर्ण है 0:59 दूसरे के रूप में थोड़ा खुला रखने के लिए 1:02 मेरे दोस्तों ने सभी नाटक को चारों ओर साझा किया 1:04 यह नया मॉडल थोड़ा अधिक लगता है 1:06 बेशक मॉडल बिल्कुल सही नहीं है 1:08 अन्य सभी जो वर्तमान में उपलब्ध हैं 1:10 ऑनलाइन हमें इसका परीक्षण करने के लिए ऑनलाइन इसकी आवश्यकता है 1:13 सीमाएं इस पर काम करती हैं और हम इसे सुधारते हैं 1:16 इस प्रकार के निर्माण देखना चाहिए 1:18 छात्रों के रूप में और गलतियों के लिए अनुमति दें और 1:21 होने के डर के बिना सुधार 1:22 बंद या रद्द वैसे भी हम नहीं हैं 1:26 यहां चर्चा करने के लिए उम्मीद है कि यह होगा 1:28 जल्द ही ऑनलाइन वापस आएं हम देखने के लिए यहां हैं 1:30 गैलेक्टिका क्या है या थी और कैसे थी 1:33 लेखन पत्रों की समीक्षा प्राप्त कर सकता है 1:35 कोड गणित और अधिक मूल रूप से गैलेक्टिका 1:39 आकार के साथ एक बड़ा भाषा मॉडल है 1:41 gpt3 से तुलनीय लेकिन इसमें विशेषज्ञता प्राप्त है 1:44 वैज्ञानिक ज्ञान अधिक सटीक रूप से 1:46 एक बड़े और क्यूरेट पर प्रशिक्षित किया गया था 1:48 सहित वैज्ञानिक ज्ञान का कोष 1:50 48 मिलियन से अधिक कागजात पाठ्यपुस्तकें और 1:54 व्याख्यान लाखों यौगिकों को नोट करता है और 1:56 प्रोटीन वैज्ञानिक वेबसाइटों 1:58 विश्वकोश और अधिक जैसे वे हाइलाइट करते हैं 2:00 डेटा उच्च गुणवत्ता और अत्यधिक थे 2:03 क्यूरेट किया गया जो कि बड़े में से एक है 2:05 gpt3 के साथ अंतर तो सिद्धांत में 2:08 गैलेक्टिका में लगभग सभी शामिल हैं 2:10 मानवता के वैज्ञानिक ज्ञान की कल्पना करो 2:12 एक अद्भुत स्मृति और समय होने के लिए 2:15 याद रखने वाले लाखों शोध पढ़ें 2:18 इसमें से अधिकांश अच्छी तरह से यह गैलेक्टिका है 2:21 ऐसा लगता है कि इसकी याददाश्त इतनी अच्छी नहीं है 2:23 आखिरकार और यह सबकुछ भी मिलाता है 2:25 हालांकि हम अधिकतर जानकारी ग्रहण कर सकते हैं 2:27 प्रशिक्षण डेटा सेट में मौजूद था 2:29 सभी उपकरणों पर विचार करते हुए भी सटीक 2:31 और असफलताएं गैलेक्टिका सुंदर बनी हुई हैं 2:34 शक्तिशाली और बहुत अधिक बेहतर प्रदर्शन करता है 2:36 वैज्ञानिक संबंधित के लिए अन्य दृष्टिकोण 2:39 कार्य यह सिर्फ एक उत्पाद के लिए पर्याप्त नहीं है 2:41 हम अभी भी इस पर विश्वास कर सकते हैं 2:44 यह समझने लायक है कि यह कैसे काम करता है 2:46 खासकर क्योंकि यह वापस आ जाएगा 2:48 और भी अधिक शक्तिशाली बहुत जल्द हम के रूप में 2:51 उल्लेखित गैलेक्टिका एक बड़ी भाषा है 2:53 gpt3 या ब्लूम के समान मॉडल 2:55 जैसा कि वे कहते हैं, विशेष रूप से प्रशिक्षित 2:58 विज्ञान को व्यवस्थित करें वहाँ भी बहुत कुछ है 3:01 इस मॉडल में इंजीनियरिंग चल रही है 3:03 इसकी इतनी बहुमुखी प्रतिभा की अनुमति देता है 3:05 इनपुट और आउटपुट जैसे विशेष 3:07 उद्धरण या प्रोटीन का टोकन 3:09 अनुक्रम जिसमें आप और अधिक सीख सकते हैं 3:11 उनका पेपर उनके नीचे जुड़ा हुआ है 3:13 टोकनकरण प्रयास अब तक है 3:15 इस कार्य का सबसे बड़ा योगदान है 3:17 टोकनेशन मूल रूप से जिस तरह से मतलब है 3:20 मॉडल शब्दों के बजाय डेटा देखेगा 3:23 गणित या आकृतियाँ जिन्हें हम समझते हैं I 3:26 वास्तव में एम्बेडिंग और पर एक वीडियो साझा करें 3:28 इस सप्ताह के अंत में टोकननाइजेशन तो अगर ऐसा है 3:30 दिलचस्प लगता है उसके लिए बने रहें 3:33 और इसे याद न करने के लिए सदस्यता लें इसलिए स्वीकार करें 3:35 यह अजीब टोकनेशन और 3:37 पूर्व-प्रसंस्करण कदम गैलेक्टिका क्या है 3:39 और लेने के बाद क्या करता है 3:42 शब्द या विभिन्न वैज्ञानिक इनपुट और 3:44 मॉडल करने के लिए इसे तैयार कर रहा है 3:46 टोकनकरण कोई आश्चर्य की बात नहीं है कि गैलेक्टिका है 3:50 अभी तक एक और ट्रांसफार्मर आधारित 3:52 कुछ के साथ gpt3 जैसी वास्तुकला 3:55 टोकन सहित विविधताएं 3:57 अंतर इसलिए मैं निश्चित रूप से आपको आमंत्रित करता हूं 3:59 लेकिन कई वीडियो I या कुछ में से एक 4:02 मेरे दोस्तों ने कवर किया 4:04 ट्रांसफार्मर आर्किटेक्चर जैसा कि मुझे नहीं मिलेगा 4:06 दूसरे में वे एक बार फिर कैसे काम करते हैं 4:09 गैलेक्टिका और के बीच प्रमुख अंतर 4:11 अन्य बड़े भाषा मॉडल वे क्या हैं 4:13 इसका मतलब शीघ्र पूर्व प्रशिक्षण कॉल करें 4:16 कि वे निकाले गए संकेतों को शामिल करेंगे 4:18 साथ में सेट किए गए प्रशिक्षण डेटा से 4:21 डेटा ही जो दिखाया गया है 4:23 मॉडल की व्यापकता को अधिकतम करें 4:25 कुछ कार्यों पर प्रदर्शन को बढ़ावा देने के दौरान 4:28 रुचि की और यह बहुत ज्यादा है 4:31 मैंने कहा कि वास्तुकला बहुत समान है 4:33 जो आप पहले से ही जानते हैं और अधिकतर 4:35 प्रशिक्षण और पूर्व-प्रसंस्करण योजनाएं अलग-अलग होती हैं 4:37 जो दर्शाता है कि मॉडल नहीं है 4:39 सब कुछ लेकिन हम कैसे प्रचार करते हैं 4:41 इसके लिए डेटा वास्तव में मायने भी रख सकता है 4:43 अधिक आप मूल रूप से देख सकते हैं 4:45 gpt3 और गैलेक्टिका के बीच अंतर 4:48 खराब विज्ञान वाला वही छात्र 4:49 शिक्षक बनाम एक अच्छा यह है 4:52 समान क्षमताएं और संसाधन 4:55 शिक्षक ने इसे और अधिक सुलभ बना दिया और 4:57 उसके लिए यह निश्चित रूप से समझ में आता है 4:59 सिर्फ कागज का एक सिंहावलोकन था और मैं 5:02 दृढ़ता से इसे पढ़ने की सलाह देते हैं 5:04 एकाधिक के बारे में बहुत सारे विवरण 5:06 इंजीनियरिंग की तरकीबें उन्होंने लागू की हैं 5:08 परिणाम विश्लेषण विवरण के साथ 5:11 वे सभी कार्य जिनका वे उपयोग करते हैं 5:13 मॉडल और यह इनपुट को कैसे समझता है 5:15 डेटा और इसकी भविष्यवाणियां इसकी सीमाएं 5:18 पक्षपात और अधिक मुझे आशा है कि आपने आनंद लिया होगा 5:21 यह वीडियो और मैं आपको अगले सप्ताह देखूंगा 5:23 एक और अद्भुत पेपर और एक विशेष के साथ एम्बेडिंग क्या हैं, इसे कवर करने वाला वीडियो