बड़े भाषा मॉडल।
ये शब्द आपने पहले भी सुने होंगे। वे एक विशिष्ट प्रकार के मशीन लर्निंग-आधारित एल्गोरिदम का प्रतिनिधित्व करते हैं जो भाषा को समझते हैं और उत्पन्न कर सकते हैं, जिसे अक्सर प्राकृतिक भाषा प्रसंस्करण या एनएलपी कहा जाता है।
आपने निश्चित रूप से सबसे प्रसिद्ध और शक्तिशाली भाषा मॉडल के बारे में सुना होगा: ।
GPT-3, जैसा कि मैंने वीडियो कवरिंग में वर्णित किया है, यह भाषा लेने, इसे समझने और बदले में भाषा उत्पन्न करने में सक्षम है। लेकिन यहां सावधान रहें; यह वास्तव में इसे नहीं समझता है। दरअसल, यह समझ से कोसों दूर है। GPT-3 और अन्य भाषा-आधारित मॉडल केवल उन शब्दों का उपयोग करते हैं जिन्हें हम शब्दों का शब्दकोश कहते हैं, उन्हें संख्याओं के रूप में प्रस्तुत करने के लिए, वाक्य में उनकी स्थिति को याद रखने के लिए, और बस इतना ही।
आइए उन शक्तिशाली मशीन लर्निंग मॉडल में गोता लगाएँ और यह समझने की कोशिश करें कि वे शब्दों के बजाय क्या देखते हैं, जिसे शब्द एम्बेडिंग कहा जाता है, और कोहेरे द्वारा प्रदान किए गए उदाहरण के साथ उन्हें कैसे तैयार किया जाए।
वीडियो में और जानें...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/text-embedding/
►BERT वर्ड एंबेडिंग ट्यूटोरियल: https://mccormickml.com/2019/05/14/BERT-word-embeddings-tutorial/#why-bert-embeddings
►Cohere's Notebook from the code example: https://colab.research.google.com/github/cohere-ai/notebooks/blob/main/notebooks/Basic_Semantic_Search.ipynb
►Cohere Repos एम्बेडिंग पर केंद्रित है: https://github.com/cohere-ai/notebooks
►मेरा न्यूज़लेटर (एक नया एआई एप्लिकेशन आपके ईमेल पर साप्ताहिक रूप से समझाया गया है!): https://www.louisbouchard.ai/newsletter/
0:07
भाषा मॉडल जो आपने सुने होंगे
0:10
ये शब्द इससे पहले कि वे एक का प्रतिनिधित्व करते हैं
0:13
विशिष्ट प्रकार की मशीन लर्निंग
0:14
एल्गोरिदम जो समझते हैं और कर सकते हैं
0:16
भाषा उत्पन्न करें जिसे अक्सर कहा जाता है
0:19
प्राकृतिक भाषा प्रसंस्करण या एनएलपी
0:22
आपने निश्चित रूप से सबसे प्रसिद्ध के बारे में सुना होगा
0:24
और शक्तिशाली भाषा मॉडल जैसे gpt3
0:26
gpt3 जैसा कि मैंने वीडियो में बताया है
0:28
इसे कवर करना भाषा लेने में सक्षम है
0:30
इसे समझें और इसमें भाषा उत्पन्न करें
0:33
वापसी लेकिन सावधान यहाँ यह नहीं है
0:35
वास्तव में इसे समझें वास्तव में यह बहुत दूर है
0:38
जीबीडी3 और अन्य को समझने से
0:41
भाषा-आधारित मॉडल केवल वही उपयोग करते हैं जो हम करते हैं
0:44
शब्दों के शब्दकोशों का प्रतिनिधित्व करने के लिए कॉल करें
0:46
संख्या के रूप में उन्हें अपनी स्थिति याद रहती है
0:49
वाक्य में और यह एक का उपयोग कर रहा है
0:52
कुछ संख्याएँ और स्थितीय संख्याएँ
0:53
एम्बेडिंग कहा जाता है जो वे कर सकते हैं
0:55
समान वाक्यों को फिर से समूहित करें जो भी
0:58
इसका मतलब है कि वे तरह करने में सक्षम हैं
1:00
वाक्यों की तुलना करके समझें
1:02
हमारे डेटा सेट जैसे ज्ञात वाक्यों के लिए
1:05
यह छवि वाक्य के लिए समान प्रक्रिया है
1:07
मॉडल जो आपके वाक्य को लेते हैं
1:10
एक छवि उत्पन्न करें जो वे वास्तव में नहीं करते हैं
1:11
इसे समझें लेकिन वे इसकी तुलना कर सकते हैं
1:13
इसी तरह की छवियां किसी प्रकार का उत्पादन करती हैं
1:16
अपने में अवधारणाओं की समझ
1:18
इस वीडियो में वाक्य हमारे पास होगा
1:20
देखो क्या है वो शक्तिशाली मशीन
1:22
सीखने के मॉडल शब्दों के बजाय देखते हैं
1:24
शब्द एम्बेडिंग कहा जाता है और कैसे करें
1:27
द्वारा प्रदान किए गए उदाहरण के साथ उन्हें प्रस्तुत करें
1:29
इस वीडियो के प्रायोजक एक महान
1:31
कंपनी एनएलपी क्षेत्र में सहयोग करती है जो मैं
1:35
वीडियो के अंत में बात करेंगे
1:36
क्योंकि उनके पास एक शानदार मंच है
1:39
एनएलपी हमने एम्बेडिंग और के बारे में बात की है
1:42
gpt3 लेकिन दोनों के बीच क्या संबंध है
1:44
उत्सर्जन वे हैं जो मॉडलों द्वारा देखे जाते हैं
1:47
और वे उन शब्दों को कैसे संसाधित करते हैं जिन्हें हम जानते हैं
1:50
और एम्बेडिंग का अच्छी तरह से उपयोग क्यों करें क्योंकि as
1:53
अभी की मशीनें शब्दों को संसाधित नहीं कर सकती हैं और
1:56
उन्हें प्रशिक्षित करने के लिए हमें संख्याओं की आवश्यकता है
1:59
बड़े मॉडल हमारे ध्यान से धन्यवाद
2:01
निर्मित डेटा सेट जिसके लिए हम गणित का उपयोग कर सकते हैं
2:04
एम्बेडिंग के बीच की दूरी को मापें
2:06
और इसके आधार पर अपने नेटवर्क को सही करें
2:08
दूरी पुनरावृत्त रूप से हमारा हो रहा है
2:10
वास्तविक अर्थ के करीब भविष्यवाणियां
2:12
और परिणामों और बैठकों में सुधार करना
2:15
वह भी हैं जो मॉडल को क्लिप पसंद हैं
2:17
स्थिर प्रसार या डाली करते थे
2:19
वाक्यों को समझें और चित्र बनाएं
2:21
यह दोनों छवियों की तुलना करके किया जाता है
2:24
और एक ही एम्बेडिंग स्पेस में टेक्स्ट
2:26
जिसका अर्थ है कि मॉडल नहीं करता है
2:28
पाठ या छवियों को समझें लेकिन यह
2:31
समझ सकते हैं कि क्या कोई छवि समान है
2:33
एक विशिष्ट पाठ या नहीं तो अगर हम पाते हैं
2:36
पर्याप्त छवि कैप्शन जोड़े जिन्हें हम प्रशिक्षित कर सकते हैं
2:38
डाली की तरह एक विशाल और शक्तिशाली मॉडल
2:41
एक वाक्य एम्बेड करें इसे खोजें
2:43
निकटतम छवि क्लोन और इसे उत्पन्न करें
2:46
रिटर्न तो टेक्स्ट के साथ मशीन लर्निंग है
2:48
सभी एम्बेडिंग की तुलना करने के बारे में लेकिन कैसे
2:51
क्या हम उन एम्बेडिंग को प्राप्त करते हैं जो हम उन्हें प्राप्त करते हैं
2:53
खोजने के लिए प्रशिक्षित एक अन्य मॉडल का उपयोग करना
2:56
समान एम्बेडिंग उत्पन्न करने का सबसे अच्छा तरीका
2:58
रखते हुए समान वाक्यों के लिए
3:01
समान शब्दों के अर्थ में अंतर
3:03
एक के लिए एक सीधे का उपयोग करने की तुलना में
3:06
शब्दकोश वाक्य आमतौर पर होते हैं
3:08
विशेष टोकन अंकन के साथ प्रतिनिधित्व किया
3:10
फिर हमारे पाठ की शुरुआत और अंत
3:13
जैसा कि मैंने कहा कि हमारे पास सभी से हमारे पोज़ हैं
3:15
एम्बेडिंग जो स्थिति को इंगित करते हैं
3:17
एक दूसरे के सापेक्ष प्रत्येक शब्द का
3:19
अक्सर साइनसोइडल फ़ंक्शंस I का उपयोग करते हुए
3:22
में इसके बारे में एक महान लेख जुड़ा हुआ है
3:25
विवरण यदि आप और जानना चाहते हैं
3:26
अंत में हमारे पास हमारे शब्द एम्बेडिंग हम हैं
3:29
हमारे सभी शब्दों के विभाजित होने से शुरू करें
3:31
शब्दों की तालिका की तरह एक सरणी में
3:34
अब शुरू करने के लिए अब शब्द नहीं हैं
3:36
वे केवल टोकन या नंबर हैं
3:40
पूरा अंग्रेजी शब्दकोश आप देख सकते हैं
3:42
यहाँ कि अब सभी शब्द हैं
3:44
एक संख्या द्वारा दर्शाया गया है जो इंगित करता है कि कहाँ है
3:46
वे इस प्रकार शब्दकोश में हैं
3:49
बैंक शब्द के लिए भी वही संख्या
3:51
हालांकि उनके अर्थ अलग हैं
3:53
अब हमारे पास जो वाक्य है उसे हमें जोड़ने की आवश्यकता है
3:56
उस पर थोड़ी सी बुद्धिमत्ता लेकिन
3:58
बहुत ज्यादा नहीं यह ए के लिए धन्यवाद किया जाता है
4:00
इस नई सूची को लेने के लिए प्रशिक्षित मॉडल
4:03
नंबर और आगे इसे एनकोड करें
4:05
संख्याओं की एक और सूची जो बेहतर है
4:08
उदाहरण के लिए वाक्य का प्रतिनिधित्व करें
4:10
अब समान एम्बेडिंग नहीं होगी
4:13
दो शब्दों के बैंक के लिए यहाँ यह है
4:15
संभव है क्योंकि मॉडल करता था
4:17
कि बहुत से पर प्रशिक्षित किया गया है
4:19
एनोटेट टेक्स्ट डेटा और सीखा
4:21
आगे समान अर्थ वाले वाक्यों को एनकोड करें
4:24
एक दूसरे और विपरीत वाक्य दूर
4:27
एक दूसरे से इस प्रकार हमारी अनुमति देता है
4:29
एम्बेडिंग हमारे द्वारा कम पक्षपातपूर्ण होने के लिए
4:31
शब्दों का चुनाव फिर प्रारंभिक सरल
4:34
एक के लिए एक शब्द एम्बेडिंग हम शुरू में
4:37
यहाँ वह है जो इमेजिंग का उपयोग करके दिखता है
4:39
जैसे एक बहुत ही कम एनएलपी उदाहरण में
4:42
के बारे में अधिक जानने के लिए नीचे अधिक लिंक हैं
4:44
एम्बेडिंग और इसे स्वयं कैसे कोड करें
4:46
यहां हम कुछ हैकर न्यूज पोस्ट लेंगे
4:49
और पुनः प्राप्त करने के लिए एक मॉडल लेबल बनाएँ
4:51
एक नए इनपुट की सबसे समान पोस्ट
4:53
वाक्य शुरू करने के लिए हमें एक डेटा सेट की आवश्यकता होती है
4:56
इस मामले में यह एक पूर्व-एम्बेडेड सेट है
4:58
3000 हैकर समाचार पोस्ट जो पहले ही हो चुकी हैं
5:01
संख्या में उत्सर्जित किया गया तो हम निर्माण करते हैं
5:04
उन सभी एम्बेडिंग को सहेजने वाली स्मृति
5:07
भविष्य की तुलना हम मूल रूप से सिर्फ
5:09
इन एम्बेडिंग को एक कुशल में सहेजा
5:11
जिस तरह से उदाहरण के लिए एक नई क्वेरी की जाती है
5:13
यहां पूछ रहा हूं कि आपका सबसे गहरा क्या है
5:16
आपके भीतर का जीवन इसे उत्पन्न कर सकता है
5:18
एक ही एम्बेडिंग का उपयोग करके एम्बेडिंग
5:20
नेटवर्क आमतौर पर यह पक्षी या एक संस्करण है
5:23
इसकी और हम दूरी की तुलना करते हैं
5:25
अन्य सभी के लिए एम्बेडिंग स्थान के बीच
5:27
हैकर समाचार हमारे स्मृति नोट में पोस्ट करता है
5:30
यह वास्तव में यहाँ के लिए महत्वपूर्ण है
5:32
चाहे हमेशा एक ही नेटवर्क का उपयोग करें
5:34
अपना डेटा सेट जनरेट करना या क्वेरी करना
5:36
जैसा कि मैंने कहा कि कोई वास्तविक नहीं है
5:38
बुद्धि यहाँ और न ही वह वास्तव में
5:40
शब्दों को समझता है यह अभी किया गया है
5:42
समान वाक्य एम्बेड करने के लिए प्रशिक्षित
5:45
मानव रहित स्थान के पास कुछ भी नहीं
5:47
अधिक अगर आप अपनी सजा एक को भेजते हैं
5:50
एक उत्पन्न करने के लिए अलग नेटवर्क
5:51
एम्बेडिंग और एम्बेडिंग की तुलना करें
5:53
जो आपके पास दूसरे नेटवर्क से थे
5:55
कुछ भी काम नहीं करेगा यह बस जैसा होगा
5:58
अच्छे लोग जो मुझसे बात करने की कोशिश करते हैं
5:59
हिब्रू में ईसीसीवी में पिछले सप्ताह यह सिर्फ
6:02
मेरे दिमाग में एक एम्बेडिंग स्पेस में नहीं था
6:04
हमारे लिए सौभाग्य से समझ सकता है
6:06
मस्तिष्क एक से स्थानांतरित करना सीख सकता है
6:08
जैसा कि मैं कर सकता हूं, दूसरे के लिए स्थान एम्बेड करना
6:11
फ्रेंच और अंग्रेजी लेकिन इसके लिए बहुत कुछ चाहिए
6:13
कार्य और अभ्यास का और यह समान है
6:16
वैसे भी हमारे पास वापस आने वाली मशीनों के लिए
6:18
समस्या हम सबसे समान पा सकते हैं
6:21
पोस्ट जो बहुत अच्छी हैं लेकिन कैसे हो सकती हैं
6:23
हम इसे प्राप्त करते हैं जैसा कि मैंने उल्लेख किया है
6:25
इसमें नेटवर्क जन्म के कारण
6:28
मामला यह समान बनाना सीखता है
6:30
समान वाक्यों से एम्बेडिंग हम कर सकते हैं
6:32
यहां तक कि इसे दो आयामों में भी देखें
6:35
यह वह जगह है जहाँ आप देख सकते हैं कि कैसे दो समान हैं
6:37
अंक आपके समान विषयों का प्रतिनिधित्व करते हैं
6:39
आपके पास एक बार और कई काम कर सकते हैं
6:41
उन एम्बेडिंग को निकालना पसंद है
6:43
शब्दार्थ खोज करने वाले कीवर्ड
6:45
भावना विश्लेषण कर रहे हैं या यहां तक कि
6:47
चित्र बनाना जैसा कि हमने कहा और
6:49
मेरे पास पिछले वीडियो में दिखाया गया है
6:52
उन और सूचीबद्ध को कवर करने वाले बहुत सारे वीडियो
6:55
सीखने के लिए कुछ दिलचस्प नोटबुक्स
6:57
कोहेयर के लिए धन्यवाद एनकोडिंग के साथ खेलते हैं
6:59
टीम अब मुझे थोड़ी बात करने दें
7:02
kohilu क्योंकि वे अत्यधिक प्रासंगिक हैं
7:05
यह वीडियो कुक यहाँ एक प्रदान करता है
7:07
अगर आप काम कर रहे हैं तो आपकी जरूरत की हर चीज
7:09
सुपर सहित एनएलपी क्षेत्र में
7:11
एम्बेडिंग मॉडल का उपयोग करने का सरल तरीका
7:14
आपका आवेदन सचमुच सिर्फ एक के साथ
7:16
एपीआई कॉल के बिना आप टेक्स्ट एम्बेड कर सकते हैं
7:18
एम्बेडिंग के बारे में कुछ भी जानना
7:21
मॉडल काम करता है एपीआई इसे आपके लिए करता है
7:23
यहां की पृष्ठभूमि आप देख सकते हैं
7:25
शब्दार्थ खोज नोटबुक जो उपयोग करता है
7:27
एम्बेडिंग बनाने के लिए कोहेयर एपीआई
7:30
सवालों और सवालों का संग्रह
7:32
बाद में खोज करने के लिए प्रश्न
7:34
इसी तरह के सवाल आप यहां कुक का इस्तेमाल कर रहे हैं
7:37
टेक्स्ट से संबंधित कुछ भी आसानी से कर सकते हैं
7:39
श्रेणीबद्ध करें और व्यवस्थित करें
7:42
बहुत ज्यादा किसी भी पैमाने को आप एकीकृत कर सकते हैं
7:44
बड़े भाषा मॉडल पर प्रशिक्षित
7:46
की कुछ पंक्तियों के साथ अरबों शब्द
7:48
कोड और यह आपके किसी भी पुस्तकालय में काम करता है
7:51
मशीन सीखने के कौशल की भी जरूरत नहीं है
7:53
आरंभ करने के लिए उनके पास सीखना भी है
7:55
संसाधनों की तरह हाल ही के लिए कोहेयर
7:57
ai का कलर प्रोग्राम है जो मुझे बहुत पसंद है
8:00
यह कार्यक्रम एक अविश्वसनीय है
8:01
एनएलपी में उभरती प्रतिभाओं को मौका
8:04
चुने जाने पर दुनिया भर में शोध
8:06
आप उनकी टीम के साथ काम करेंगे
8:08
और बड़े पैमाने पर पहुंच है
8:10
प्रयोगात्मक ढांचा और जुटना
8:12
विशेषज्ञ जो बहुत अच्छे हैं मैं भी
8:15
आपको उनके महान कलह में शामिल होने के लिए आमंत्रित करते हैं
8:17
समुदाय को सरलता से Co Unity I कहा जाता है
8:21
आशा है कि आपने इस वीडियो का आनंद लिया है और करेंगे
8:23
स्वयं के साथ तालमेल बिठाने का प्रयास करें
8:25
नीचे पहला लिंक मुझे यकीन है कि आप करेंगे
8:27
इसका लाभ उठाएं इसके लिए आपका बहुत-बहुत धन्यवाद
8:29
पूरा वीडियो देख रहे हैं और धन्यवाद
8:31
कोई छोड़कर मेरे काम का समर्थन कर रहा है
8:33
टिप्पणी पसंद करें या हमारे प्रायोजकों को आजमाएं
8:36
कि मैं इन वीडियो के लिए सावधानीपूर्वक चयन करता हूं