15 नवंबर को, मेटाएआई और कोड के साथ पेपर्स ने गैलेक्टिका को जारी करने की घोषणा की, जो एक गेम-चेंजर, ओपन-सोर्स बड़ा भाषा मॉडल है, जिसे 120 बिलियन मापदंडों के साथ वैज्ञानिक ज्ञान पर प्रशिक्षित किया गया है।
जैसा कि मेरे एक मित्र ने ट्विटर पर साझा किया है , मॉडल श्वेतपत्र, समीक्षाएं, विकिपीडिया पृष्ठ और कोड लिख सकता है। यह जानता है कि कैसे उद्धरण देना है और समीकरण कैसे लिखना है। यह एआई और विज्ञान के लिए एक बड़ी बात है।
17 नवंबर को गैलेक्टिका को बंद कर दिया गया था।
क्यों? क्योंकि, सभी गहन शिक्षण मॉडलों की तरह, यह हाथ में लिए गए कार्य को नहीं समझता था और कई मामलों में गलत था। यह एक मुद्दा नहीं होना चाहिए, खासकर अगर हम यह कहते हुए चेतावनी जोड़ते हैं कि मॉडल गलत हो सकता है और उस पर आंख मूंदकर भरोसा नहीं करना चाहिए। जैसे किसी ने विकिपीडिया पर भरोसा नहीं किया, हम इसे हाई स्कूल परियोजनाओं में एक संदर्भ के रूप में नहीं रख सकते। मुद्दा यह है कि गैलेक्टिका गलत या पक्षपाती था लेकिन सही और आधिकारिक लग रहा था ।
फिर भी, मॉडल शोधकर्ताओं के लिए उपलब्ध है, और मेरा मानना है कि इसे ओपन-सोर्स रखना महत्वपूर्ण है।
जैसा कि मेरे एक अन्य मित्र ने साझा किया, नए मॉडल के इर्द-गिर्द सारा ड्रामा कुछ ज्यादा ही लगता है। बेशक, मॉडल बिल्कुल सही नहीं है, अन्य सभी की तरह जो वर्तमान में ऑनलाइन उपलब्ध हैं। इसकी सीमाओं का परीक्षण करने, इस पर काम करने और इसे बेहतर बनाने के लिए हमें इसकी ऑनलाइन आवश्यकता है। हमें इस प्रकार के प्रकाशनों को छात्रों के रूप में देखना चाहिए और बंद होने या रद्द होने के डर के बिना गलतियों और सुधारों की अनुमति देनी चाहिए।
वैसे भी, हम यहां उस पर चर्चा करने के लिए नहीं हैं। उम्मीद है, यह जल्द ही ऑनलाइन वापस आ जाएगा ।
हम यहां यह देखने के लिए हैं कि गैलेक्टिका क्या है, या थी, और यह कैसे लेखन पत्र, समीक्षाएं, कोड, और बहुत कुछ हासिल कर सकती है ...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/galactica/
► टेलर एट अल।, 2022: गैलेक्टिका, https://galactica.org/
►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया गया है!): https://www.louisbouchard.ai/newsletter/
0:00
15 नवंबर को मेटैरी और कागजात
0:03
कोड के साथ जारी करने की घोषणा की
0:04
गैलेटिका एक गेम चेंजर ओपन सोर्स है
0:07
बड़े भाषा मॉडल पर प्रशिक्षित
0:09
120 बिलियन के साथ वैज्ञानिक ज्ञान
0:12
मेरे एक मित्र द्वारा साझा किए गए पैरामीटर
0:14
ट्विटर पर मॉडल सफेद लिख सकती है
0:16
पेपर विकिपीडिया पृष्ठों और कोड की समीक्षा करता है
0:19
यह जानता है कि कैसे उद्धृत करना है और कैसे लिखना है
0:22
समीकरण यह वास्तव में एक तरह का बड़ा है
0:24
17 नवंबर को एआई और विज्ञान के लिए सौदा
0:28
गैलेक्टिका को बंद कर दिया गया था क्यों क्योंकि
0:31
सभी गहन शिक्षण मॉडल के साथ ऐसा नहीं हुआ
0:34
कार्य को हाथ में समझें और था
0:36
कई मामलों में गलत यह नहीं होना चाहिए
0:39
मुद्दा खासकर अगर हम एक चेतावनी जोड़ते हैं
0:41
यह कहना कि मॉडल गलत हो सकता है और नहीं
0:43
किसी की तरह आंख मूंदकर भरोसा करें
0:45
विश्वसनीय विकिपीडिया हम इसे इस रूप में नहीं रख सकते
0:48
हाई स्कूल परियोजनाओं में एक संदर्भ
0:50
मुद्दा यह था कि गैलेक्टिका गलत थी और
0:52
पक्षपाती लेकिन सही और सार्थक लग रहा था
0:55
अभी भी मॉडल उपलब्ध है
0:57
शोधकर्ताओं और मुझे विश्वास है कि यह महत्वपूर्ण है
0:59
दूसरे के रूप में थोड़ा खुला रखने के लिए
1:02
मेरे दोस्तों ने सभी नाटक को चारों ओर साझा किया
1:04
यह नया मॉडल थोड़ा अधिक लगता है
1:06
बेशक मॉडल बिल्कुल सही नहीं है
1:08
अन्य सभी जो वर्तमान में उपलब्ध हैं
1:10
ऑनलाइन हमें इसका परीक्षण करने के लिए ऑनलाइन इसकी आवश्यकता है
1:13
सीमाएं इस पर काम करती हैं और हम इसे सुधारते हैं
1:16
इस प्रकार के निर्माण देखना चाहिए
1:18
छात्रों के रूप में और गलतियों के लिए अनुमति दें और
1:21
होने के डर के बिना सुधार
1:22
बंद या रद्द वैसे भी हम नहीं हैं
1:26
यहां चर्चा करने के लिए उम्मीद है कि यह होगा
1:28
जल्द ही ऑनलाइन वापस आएं हम देखने के लिए यहां हैं
1:30
गैलेक्टिका क्या है या थी और कैसे थी
1:33
लेखन पत्रों की समीक्षा प्राप्त कर सकता है
1:35
कोड गणित और अधिक मूल रूप से गैलेक्टिका
1:39
आकार के साथ एक बड़ा भाषा मॉडल है
1:41
gpt3 से तुलनीय लेकिन इसमें विशेषज्ञता प्राप्त है
1:44
वैज्ञानिक ज्ञान अधिक सटीक रूप से
1:46
एक बड़े और क्यूरेट पर प्रशिक्षित किया गया था
1:48
सहित वैज्ञानिक ज्ञान का कोष
1:50
48 मिलियन से अधिक कागजात पाठ्यपुस्तकें और
1:54
व्याख्यान लाखों यौगिकों को नोट करता है और
1:56
प्रोटीन वैज्ञानिक वेबसाइटों
1:58
विश्वकोश और अधिक जैसे वे हाइलाइट करते हैं
2:00
डेटा उच्च गुणवत्ता और अत्यधिक थे
2:03
क्यूरेट किया गया जो कि बड़े में से एक है
2:05
gpt3 के साथ अंतर तो सिद्धांत में
2:08
गैलेक्टिका में लगभग सभी शामिल हैं
2:10
मानवता के वैज्ञानिक ज्ञान की कल्पना करो
2:12
एक अद्भुत स्मृति और समय होने के लिए
2:15
याद रखने वाले लाखों शोध पढ़ें
2:18
इसमें से अधिकांश अच्छी तरह से यह गैलेक्टिका है
2:21
ऐसा लगता है कि इसकी याददाश्त इतनी अच्छी नहीं है
2:23
आखिरकार और यह सबकुछ भी मिलाता है
2:25
हालांकि हम अधिकतर जानकारी ग्रहण कर सकते हैं
2:27
प्रशिक्षण डेटा सेट में मौजूद था
2:29
सभी उपकरणों पर विचार करते हुए भी सटीक
2:31
और असफलताएं गैलेक्टिका सुंदर बनी हुई हैं
2:34
शक्तिशाली और बहुत अधिक बेहतर प्रदर्शन करता है
2:36
वैज्ञानिक संबंधित के लिए अन्य दृष्टिकोण
2:39
कार्य यह सिर्फ एक उत्पाद के लिए पर्याप्त नहीं है
2:41
हम अभी भी इस पर विश्वास कर सकते हैं
2:44
यह समझने लायक है कि यह कैसे काम करता है
2:46
खासकर क्योंकि यह वापस आ जाएगा
2:48
और भी अधिक शक्तिशाली बहुत जल्द हम के रूप में
2:51
उल्लेखित गैलेक्टिका एक बड़ी भाषा है
2:53
gpt3 या ब्लूम के समान मॉडल
2:55
जैसा कि वे कहते हैं, विशेष रूप से प्रशिक्षित
2:58
विज्ञान को व्यवस्थित करें वहाँ भी बहुत कुछ है
3:01
इस मॉडल में इंजीनियरिंग चल रही है
3:03
इसकी इतनी बहुमुखी प्रतिभा की अनुमति देता है
3:05
इनपुट और आउटपुट जैसे विशेष
3:07
उद्धरण या प्रोटीन का टोकन
3:09
अनुक्रम जिसमें आप और अधिक सीख सकते हैं
3:11
उनका पेपर उनके नीचे जुड़ा हुआ है
3:13
टोकनकरण प्रयास अब तक है
3:15
इस कार्य का सबसे बड़ा योगदान है
3:17
टोकनेशन मूल रूप से जिस तरह से मतलब है
3:20
मॉडल शब्दों के बजाय डेटा देखेगा
3:23
गणित या आकृतियाँ जिन्हें हम समझते हैं I
3:26
वास्तव में एम्बेडिंग और पर एक वीडियो साझा करें
3:28
इस सप्ताह के अंत में टोकननाइजेशन तो अगर ऐसा है
3:30
दिलचस्प लगता है उसके लिए बने रहें
3:33
और इसे याद न करने के लिए सदस्यता लें इसलिए स्वीकार करें
3:35
यह अजीब टोकनेशन और
3:37
पूर्व-प्रसंस्करण कदम गैलेक्टिका क्या है
3:39
और लेने के बाद क्या करता है
3:42
शब्द या विभिन्न वैज्ञानिक इनपुट और
3:44
मॉडल करने के लिए इसे तैयार कर रहा है
3:46
टोकनकरण कोई आश्चर्य की बात नहीं है कि गैलेक्टिका है
3:50
अभी तक एक और ट्रांसफार्मर आधारित
3:52
कुछ के साथ gpt3 जैसी वास्तुकला
3:55
टोकन सहित विविधताएं
3:57
अंतर इसलिए मैं निश्चित रूप से आपको आमंत्रित करता हूं
3:59
लेकिन कई वीडियो I या कुछ में से एक
4:02
मेरे दोस्तों ने कवर किया
4:04
ट्रांसफार्मर आर्किटेक्चर जैसा कि मुझे नहीं मिलेगा
4:06
दूसरे में वे एक बार फिर कैसे काम करते हैं
4:09
गैलेक्टिका और के बीच प्रमुख अंतर
4:11
अन्य बड़े भाषा मॉडल वे क्या हैं
4:13
इसका मतलब शीघ्र पूर्व प्रशिक्षण कॉल करें
4:16
कि वे निकाले गए संकेतों को शामिल करेंगे
4:18
साथ में सेट किए गए प्रशिक्षण डेटा से
4:21
डेटा ही जो दिखाया गया है
4:23
मॉडल की व्यापकता को अधिकतम करें
4:25
कुछ कार्यों पर प्रदर्शन को बढ़ावा देने के दौरान
4:28
रुचि की और यह बहुत ज्यादा है
4:31
मैंने कहा कि वास्तुकला बहुत समान है
4:33
जो आप पहले से ही जानते हैं और अधिकतर
4:35
प्रशिक्षण और पूर्व-प्रसंस्करण योजनाएं अलग-अलग होती हैं
4:37
जो दर्शाता है कि मॉडल नहीं है
4:39
सब कुछ लेकिन हम कैसे प्रचार करते हैं
4:41
इसके लिए डेटा वास्तव में मायने भी रख सकता है
4:43
अधिक आप मूल रूप से देख सकते हैं
4:45
gpt3 और गैलेक्टिका के बीच अंतर
4:48
खराब विज्ञान वाला वही छात्र
4:49
शिक्षक बनाम एक अच्छा यह है
4:52
समान क्षमताएं और संसाधन
4:55
शिक्षक ने इसे और अधिक सुलभ बना दिया और
4:57
उसके लिए यह निश्चित रूप से समझ में आता है
4:59
सिर्फ कागज का एक सिंहावलोकन था और मैं
5:02
दृढ़ता से इसे पढ़ने की सलाह देते हैं
5:04
एकाधिक के बारे में बहुत सारे विवरण
5:06
इंजीनियरिंग की तरकीबें उन्होंने लागू की हैं
5:08
परिणाम विश्लेषण विवरण के साथ
5:11
वे सभी कार्य जिनका वे उपयोग करते हैं
5:13
मॉडल और यह इनपुट को कैसे समझता है
5:15
डेटा और इसकी भविष्यवाणियां इसकी सीमाएं
5:18
पक्षपात और अधिक मुझे आशा है कि आपने आनंद लिया होगा
5:21
यह वीडियो और मैं आपको अगले सप्ताह देखूंगा
5:23
एक और अद्भुत पेपर और एक विशेष के साथ
एम्बेडिंग क्या हैं, इसे कवर करने वाला वीडियो