क्या आपने कभी एक अच्छे ट्रांसक्रिप्शन टूल का सपना देखा है जो आपकी बातों को सही ढंग से समझ सके और उसे लिख सके? स्वचालित YouTube अनुवाद टूल की तरह नहीं… मेरा मतलब है, वे अच्छे हैं लेकिन परिपूर्ण से बहुत दूर हैं। बस इसे आज़माएं और वीडियो के लिए सुविधा चालू करें, और आप देखेंगे कि मैं किस बारे में बात कर रहा हूं।
सौभाग्य से, OpenAI ने केवल उसके लिए एक बहुत शक्तिशाली AI मॉडल जारी किया और ओपन-सोर्स किया: कानाफूसी।
यह उन चीजों को समझता है जिन्हें मैं समझ भी नहीं सकता, देशी अंग्रेजी बोलने वाला नहीं (वीडियो में सुनें) और यह भाषा अनुवाद के लिए भी काम करता है! नीचे दिए गए वीडियो में और जानें...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/whisper/
रेडफोर्ड, ए., किम, जेडब्ल्यू, जू, टी., ब्रॉकमैन, जी., मैकलीवे, सी. और
सुत्स्केवर, आई।, बड़े पैमाने पर कमजोर के माध्यम से मजबूत भाषण पहचान
पर्यवेक्षण।
प्रोजेक्ट लिंक: https://openai.com/blog/whisper/
कोड: https://github.com/openai/whisper
►Google Colab नोटबुक: https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb
YouTube व्हिस्परर ऐप: https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
क्या आपने कभी अच्छा सपना देखा है
0:01
ट्रांसक्रिप्शन टूल जो सटीक होगा
0:03
आप जो देखते हैं उसे समझें और लिखें
0:05
नीचे स्वचालित YouTube की तरह नहीं है
0:07
अनुवाद उपकरण मेरा मतलब है कि वे अच्छे हैं
0:09
लेकिन एकदम सही से बहुत दूर बस इसे आज़माएं और
0:12
इस वीडियो के लिए सुविधा चालू करें और
0:14
आप देखेंगे कि मैं किस बारे में अच्छी तरह से बात कर रहा हूँ
0:16
ओपन एआई ने अभी एक ओपन सोर्स जारी किया है
0:18
और सिर्फ के लिए एक बहुत शक्तिशाली एआई मॉडल
0:21
वह फुसफुसाता है कि यह सामान भी समझता है I
0:24
मूलनिवासी न होने को समझ भी नहीं सकते
0:26
अंग्रेज़ वक़्ता
0:28
यह माइक्रो मशीन मैन प्रस्तुत कर रहा है
0:29
का सबसे लघु मोटरसाइकिल
0:30
माइक्रो मशीन हर एक में नाटकीय है
0:32
विवरण बहुत बढ़िया ट्रिम प्रेसिजन पेज कला
0:33
साथ ही अविश्वसनीय माइक्रो मशीन पॉकेट
0:34
वह स्थान जो कहता है कि एक PlayStation आग लगाती है
0:36
भाषा अनुवाद के लिए भी काम करता है
0:38
कानाफूसी एक सुसंगत तरल यह
0:41
स्वचालित रूप से अल्टरनेटर लगता है
0:48
परिणाम और सटीकता अविश्वसनीय हैं
0:51
लेकिन इससे भी अच्छी बात यह है कि यह कैसे काम करता है
0:53
चलो इसमें गोता लगाएँ लेकिन पहले मुझे जाने दें
0:56
इस एपिसोड के प्रायोजक का परिचय दें जो है
0:58
इस शोध सभा से अत्यधिक संबंधित
1:00
एआई असेंबली एआई एपीआई प्लेटफॉर्म है
1:03
स्टार्टअप्स के अत्याधुनिक एआई मॉडल
1:06
फॉर्च्यून 500 कंपनियों के डेवलपर्स और
1:08
दुनिया भर की उत्पाद टीमें उत्तोलन करती हैं
1:10
बेहतर एआई-आधारित बनाने के लिए असेंबली एआई
1:13
उत्पाद और सुविधाएँ यदि आप हैं
1:15
मीटिंग सारांश पॉडकास्ट बनाना
1:17
विश्लेषक या वास्तव में संबंधित कुछ भी
1:19
ऑडियो या वीडियो और एआई का लाभ उठाना चाहते हैं
1:22
पावर ट्रांसक्रिप्शन या अंतर्दृष्टि के लिए
1:24
पैमाना निश्चित रूप से उनके एपीआई की जाँच करें
1:26
मंच अधिक विशेष रूप से मैं चाहता था
1:29
उनके संक्षेप मॉडल को साझा करें जो I
1:31
जैसा कि नाम से पता चलता है, वास्तव में अच्छा लगता है
1:34
यह मॉडल आप ऐसे उपकरण बना सकते हैं जो
1:36
अपने ऑडियो को स्वचालित रूप से सारांशित करें और
1:38
वीडियो फ़ाइलें मॉडल फिट करने के लिए लचीला है
1:41
आपके उपयोग के मामले और को अनुकूलित किया जा सकता है
1:44
विभिन्न सारांश प्रकार की गोलियां
1:46
पैराग्राफ हेडलाइंस या यह सब समायोजित करें
1:48
सरल एपीआई कॉल और आप के माध्यम से काम करता है
1:51
आपको आवश्यक सभी जानकारी मिल सकती है
1:53
संक्षेप मॉडल और विधानसभा के लिए
1:55
नीचे दिए गए पहले लिंक के साथ एआई
1:59
जब मॉडल की बात आती है
2:01
कानाफूसी बहुत ही क्लासिक है जिस पर इसे बनाया गया है
2:04
ट्रांसफॉर्मर आर्किटेक्चर स्टैकिंग
2:06
एन्कोडर ब्लॉक और डिकोडर ब्लॉक के साथ
2:08
ध्यान तंत्र प्रसार
2:10
दोनों के बीच जानकारी लेगी
2:13
ऑडियो रिकॉर्डिंग ने इसे 30 . में विभाजित किया
2:16
दूसरे विखंडू और उन्हें एक-एक करके संसाधित करें
2:18
प्रत्येक 30 सेकंड की रिकॉर्डिंग के लिए एक
2:21
एन्कोडर का उपयोग करके ऑडियो को एन्कोड करेगा
2:23
अनुभाग और प्रत्येक की स्थिति को बचाएं
2:25
शब्द ने कहा और इस एन्कोडेड का लाभ उठाएं
2:28
जानकारी का उपयोग करके जो कहा गया था उसे खोजने के लिए
2:30
डिकोडर डिकोडर भविष्यवाणी करेगा
2:33
जिसे हम इन सब से टोकन कहते हैं
2:34
जानकारी जो मूल रूप से प्रत्येक
2:37
शब्द कहा जा रहा है तो यह दोहराएगा
2:39
सभी का उपयोग करके अगले शब्द के लिए यह प्रक्रिया
2:41
एक ही जानकारी के साथ-साथ
2:43
पिछले शब्द की भविष्यवाणी करने में मदद करता है
2:46
अगले एक का अनुमान लगाएं जो अधिक बना देगा
2:48
अर्थ के रूप में मैंने कहा कि समग्र वास्तुकला
2:50
एक क्लासिक एनकोडर और डिकोडर है और I
2:53
इसे इसी तरह के कई वीडियो में कवर किया गया है
2:55
gpt3 और अन्य भाषा मॉडल जो I
2:58
अधिक के लिए जाँच करने के लिए आमंत्रित करें
3:00
वास्तु विवरण यह इसके रूप में काम करता है
3:02
600 000 घंटे से अधिक पर प्रशिक्षित किया गया था
3:05
बहुभाषी और बहु-कार्य पर्यवेक्षित
3:08
वेब से एकत्र किए गए डेटा का अर्थ है कि
3:11
उन्होंने अपने ऑडियो मॉडल को a . में प्रशिक्षित किया
3:12
उसी तरह जैसे gpt3 उपलब्ध डेटा के साथ
3:15
इंटरनेट पर इसे एक बड़ा और
3:18
सामान्य ऑडियो मॉडल यह भी बनाता है
3:20
मॉडल रास्ता दूसरों की तुलना में अधिक मजबूत
3:23
वास्तव में उन्होंने उस कानाफूसी का उल्लेख किया है
3:24
मानव स्तर की मजबूती के कारण
3:27
इस तरह के विविध सेट पर प्रशिक्षित किया जा रहा है
3:29
क्लिप्स TED Talks से लेकर डेटा
3:32
पॉडकास्ट साक्षात्कार और बहुत कुछ जो सभी
3:34
कुछ के साथ वास्तविक दुनिया जैसे डेटा का प्रतिनिधित्व करते हैं
3:36
उनमें से मशीन का उपयोग करके लिखित
3:38
सीखने पर आधारित मॉडल और इंसान नहीं
3:40
निश्चित रूप से ऐसे अपूर्ण डेटा का उपयोग करना
3:43
संभावित परिशुद्धता को कम करता है लेकिन I
3:45
तर्क देंगे कि यह मजबूती के लिए मदद करता है जब
3:47
शुद्ध मानव की तुलना में बहुत कम उपयोग किया जाता है
3:49
क्यूरेटेड ऑडियो डेटा सेट परफेक्ट के साथ
3:52
इस तरह के एक सामान्य होने वाले प्रतिलेखन
3:54
मॉडल अपने आप में बहुत शक्तिशाली नहीं है
3:57
इसे अधिकांश कार्यों में हरा दिया जाएगा
3:58
छोटे और अधिक विशिष्ट मॉडल अनुकूलित
4:01
हाथ में काम करने के लिए लेकिन यह अन्य है
4:03
लाभ आप इस प्रकार का उपयोग कर सकते हैं
4:05
पूर्व-प्रशिक्षित मॉडल और उन्हें ठीक करें
4:08
आपका कार्य जिसका अर्थ है कि आप लेंगे
4:10
यह शक्तिशाली मॉडल और एक भाग को फिर से प्रशिक्षित करें
4:13
इसका या पूरी बात अपने आप से
4:15
डेटा इस तकनीक को दिखाया गया है
4:17
शुरू करने की तुलना में बहुत बेहतर मॉडल तैयार करें
4:19
अपने डेटा के साथ खरोंच से प्रशिक्षण और
4:21
इससे भी अच्छी बात यह है कि openai open
4:24
उनके कोड और सब कुछ सोर्स किया
4:25
एपीआई के बजाय ताकि आप कानाफूसी का उपयोग कर सकें
4:28
एक पूर्व प्रशिक्षित नींव वास्तुकला के रूप में
4:30
निर्माण करने और अधिक शक्तिशाली बनाने के लिए
4:33
अपने लिए मॉडल कुछ लोगों के पास है
4:35
जैसे उपकरण पहले ही जारी कर दिए हैं
4:37
YouTube कानाफूसी करने वाला जेफ़ का चेहरा खोलता है
4:39
एक YouTube लिंक लेकर टाइप कर रहा है और
4:42
ट्रांसक्रिप्शन उत्पन्न करना जो मुझे मिला
4:44
यानिक किटर के लिए धन्यवाद वे भी
4:46
के लिए एक Google Collab नोटबुक जारी किया
4:48
कुछ के साथ तुरंत खेलें
4:50
प्रतियोगिता महत्वपूर्ण है मुझे खुशी है कि openai is
4:53
अपना कुछ काम जनता के लिए जारी करना
4:54
मुझे विश्वास है कि ऐसे सहयोग हैं
4:57
हमारे क्षेत्र में आगे बढ़ने का सबसे अच्छा तरीका चलो
5:00
मुझे पता है कि आप क्या सोचते हैं यदि आप करना चाहते हैं
5:01
openai या if . की अधिक सार्वजनिक रिलीज़ देखें
5:04
आपको उनके द्वारा बनाए गए अंतिम उत्पाद पसंद हैं
5:06
हमेशा की तरह डेली की तरह आप और पा सकते हैं
5:08
कागज में कानाफूसी के बारे में जानकारी
5:11
और कोड नीचे लिंक किया गया है और मुझे आशा है कि आपने
5:13
इस वीडियो का आनंद लिया मैं आपको आगे देखूंगा
5:15
एक और अद्भुत पेपर के साथ सप्ताह