क्या आपने कभी एक अच्छे ट्रांसक्रिप्शन टूल का सपना देखा है जो आपकी बातों को सही ढंग से समझ सके और उसे लिख सके? स्वचालित YouTube अनुवाद टूल की तरह नहीं… मेरा मतलब है, वे अच्छे हैं लेकिन परिपूर्ण से बहुत दूर हैं। बस इसे आज़माएं और वीडियो के लिए सुविधा चालू करें, और आप देखेंगे कि मैं किस बारे में बात कर रहा हूं।  सौभाग्य से, OpenAI ने केवल उसके लिए एक बहुत शक्तिशाली AI मॉडल जारी किया और ओपन-सोर्स किया: कानाफूसी।  यह उन चीजों को समझता है जिन्हें मैं समझ भी नहीं सकता, देशी अंग्रेजी बोलने वाला नहीं (वीडियो में सुनें) और यह भाषा अनुवाद के लिए भी काम करता है! नीचे दिए गए वीडियो में और जानें...   संदर्भ  ►पूरा लेख पढ़ें:   रेडफोर्ड, ए., किम, जेडब्ल्यू, जू, टी., ब्रॉकमैन, जी., मैकलीवे, सी. और  सुत्स्केवर, आई।, बड़े पैमाने पर कमजोर के माध्यम से मजबूत भाषण पहचान  पर्यवेक्षण।  प्रोजेक्ट लिंक:   कोड:   ►Google Colab नोटबुक:   YouTube व्हिस्परर ऐप:   ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!):  https://www.louisbouchard.ai/whisper/ https://openai.com/blog/whisper/ https://github.com/openai/whisper https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb https://huggingface.co/spaces/jeffistyping/Youtube-Whisperer https://www.louisbouchard.ai/newsletter/  वीडियो ट्रांसक्रिप्ट  0:00  क्या आपने कभी अच्छा सपना देखा है  0:01  ट्रांसक्रिप्शन टूल जो सटीक होगा  0:03  आप जो देखते हैं उसे समझें और लिखें  0:05  नीचे स्वचालित YouTube की तरह नहीं है  0:07  अनुवाद उपकरण मेरा मतलब है कि वे अच्छे हैं  0:09  लेकिन एकदम सही से बहुत दूर बस इसे आज़माएं और  0:12  इस वीडियो के लिए सुविधा चालू करें और  0:14  आप देखेंगे कि मैं किस बारे में अच्छी तरह से बात कर रहा हूँ  0:16  ओपन एआई ने अभी एक ओपन सोर्स जारी किया है  0:18  और सिर्फ के लिए एक बहुत शक्तिशाली एआई मॉडल  0:21  वह फुसफुसाता है कि यह सामान भी समझता है I  0:24  मूलनिवासी न होने को समझ भी नहीं सकते  0:26  अंग्रेज़ वक़्ता  0:28  यह माइक्रो मशीन मैन प्रस्तुत कर रहा है  0:29  का सबसे लघु मोटरसाइकिल  0:30  माइक्रो मशीन हर एक में नाटकीय है  0:32  विवरण बहुत बढ़िया ट्रिम प्रेसिजन पेज कला  0:33  साथ ही अविश्वसनीय माइक्रो मशीन पॉकेट  0:34  वह स्थान जो कहता है कि एक PlayStation आग लगाती है  0:36  भाषा अनुवाद के लिए भी काम करता है  0:38  कानाफूसी एक सुसंगत तरल यह  0:41  स्वचालित रूप से अल्टरनेटर लगता है  0:48  परिणाम और सटीकता अविश्वसनीय हैं  0:51  लेकिन इससे भी अच्छी बात यह है कि यह कैसे काम करता है  0:53  चलो इसमें गोता लगाएँ लेकिन पहले मुझे जाने दें  0:56  इस एपिसोड के प्रायोजक का परिचय दें जो है  0:58  इस शोध सभा से अत्यधिक संबंधित  1:00  एआई असेंबली एआई एपीआई प्लेटफॉर्म है  1:03  स्टार्टअप्स के अत्याधुनिक एआई मॉडल  1:06  फॉर्च्यून 500 कंपनियों के डेवलपर्स और  1:08  दुनिया भर की उत्पाद टीमें उत्तोलन करती हैं  1:10  बेहतर एआई-आधारित बनाने के लिए असेंबली एआई  1:13  उत्पाद और सुविधाएँ यदि आप हैं  1:15  मीटिंग सारांश पॉडकास्ट बनाना  1:17  विश्लेषक या वास्तव में संबंधित कुछ भी  1:19  ऑडियो या वीडियो और एआई का लाभ उठाना चाहते हैं  1:22  पावर ट्रांसक्रिप्शन या अंतर्दृष्टि के लिए  1:24  पैमाना निश्चित रूप से उनके एपीआई की जाँच करें  1:26  मंच अधिक विशेष रूप से मैं चाहता था  1:29  उनके संक्षेप मॉडल को साझा करें जो I  1:31  जैसा कि नाम से पता चलता है, वास्तव में अच्छा लगता है  1:34  यह मॉडल आप ऐसे उपकरण बना सकते हैं जो  1:36  अपने ऑडियो को स्वचालित रूप से सारांशित करें और  1:38  वीडियो फ़ाइलें मॉडल फिट करने के लिए लचीला है  1:41  आपके उपयोग के मामले और को अनुकूलित किया जा सकता है  1:44  विभिन्न सारांश प्रकार की गोलियां  1:46  पैराग्राफ हेडलाइंस या यह सब समायोजित करें  1:48  सरल एपीआई कॉल और आप के माध्यम से काम करता है  1:51  आपको आवश्यक सभी जानकारी मिल सकती है  1:53  संक्षेप मॉडल और विधानसभा के लिए  1:55  नीचे दिए गए पहले लिंक के साथ एआई  1:59  जब मॉडल की बात आती है  2:01  कानाफूसी बहुत ही क्लासिक है जिस पर इसे बनाया गया है  2:04  ट्रांसफॉर्मर आर्किटेक्चर स्टैकिंग  2:06  एन्कोडर ब्लॉक और डिकोडर ब्लॉक के साथ  2:08  ध्यान तंत्र प्रसार  2:10  दोनों के बीच जानकारी लेगी  2:13  ऑडियो रिकॉर्डिंग ने इसे 30 . में विभाजित किया  2:16  दूसरे विखंडू और उन्हें एक-एक करके संसाधित करें  2:18  प्रत्येक 30 सेकंड की रिकॉर्डिंग के लिए एक  2:21  एन्कोडर का उपयोग करके ऑडियो को एन्कोड करेगा  2:23  अनुभाग और प्रत्येक की स्थिति को बचाएं  2:25  शब्द ने कहा और इस एन्कोडेड का लाभ उठाएं  2:28  जानकारी का उपयोग करके जो कहा गया था उसे खोजने के लिए  2:30  डिकोडर डिकोडर भविष्यवाणी करेगा  2:33  जिसे हम इन सब से टोकन कहते हैं  2:34  जानकारी जो मूल रूप से प्रत्येक  2:37  शब्द कहा जा रहा है तो यह दोहराएगा  2:39  सभी का उपयोग करके अगले शब्द के लिए यह प्रक्रिया  2:41  एक ही जानकारी के साथ-साथ  2:43  पिछले शब्द की भविष्यवाणी करने में मदद करता है  2:46  अगले एक का अनुमान लगाएं जो अधिक बना देगा  2:48  अर्थ के रूप में मैंने कहा कि समग्र वास्तुकला  2:50  एक क्लासिक एनकोडर और डिकोडर है और I  2:53  इसे इसी तरह के कई वीडियो में कवर किया गया है  2:55  gpt3 और अन्य भाषा मॉडल जो I  2:58  अधिक के लिए जाँच करने के लिए आमंत्रित करें  3:00  वास्तु विवरण यह इसके रूप में काम करता है  3:02  600 000 घंटे से अधिक पर प्रशिक्षित किया गया था  3:05  बहुभाषी और बहु-कार्य पर्यवेक्षित  3:08  वेब से एकत्र किए गए डेटा का अर्थ है कि  3:11  उन्होंने अपने ऑडियो मॉडल को a . में प्रशिक्षित किया  3:12  उसी तरह जैसे gpt3 उपलब्ध डेटा के साथ  3:15  इंटरनेट पर इसे एक बड़ा और  3:18  सामान्य ऑडियो मॉडल यह भी बनाता है  3:20  मॉडल रास्ता दूसरों की तुलना में अधिक मजबूत  3:23  वास्तव में उन्होंने उस कानाफूसी का उल्लेख किया है  3:24  मानव स्तर की मजबूती के कारण  3:27  इस तरह के विविध सेट पर प्रशिक्षित किया जा रहा है  3:29  क्लिप्स TED Talks से लेकर डेटा  3:32  पॉडकास्ट साक्षात्कार और बहुत कुछ जो सभी  3:34  कुछ के साथ वास्तविक दुनिया जैसे डेटा का प्रतिनिधित्व करते हैं  3:36  उनमें से मशीन का उपयोग करके लिखित  3:38  सीखने पर आधारित मॉडल और इंसान नहीं  3:40  निश्चित रूप से ऐसे अपूर्ण डेटा का उपयोग करना  3:43  संभावित परिशुद्धता को कम करता है लेकिन I  3:45  तर्क देंगे कि यह मजबूती के लिए मदद करता है जब  3:47  शुद्ध मानव की तुलना में बहुत कम उपयोग किया जाता है  3:49  क्यूरेटेड ऑडियो डेटा सेट परफेक्ट के साथ  3:52  इस तरह के एक सामान्य होने वाले प्रतिलेखन  3:54  मॉडल अपने आप में बहुत शक्तिशाली नहीं है  3:57  इसे अधिकांश कार्यों में हरा दिया जाएगा  3:58  छोटे और अधिक विशिष्ट मॉडल अनुकूलित  4:01  हाथ में काम करने के लिए लेकिन यह अन्य है  4:03  लाभ आप इस प्रकार का उपयोग कर सकते हैं  4:05  पूर्व-प्रशिक्षित मॉडल और उन्हें ठीक करें  4:08  आपका कार्य जिसका अर्थ है कि आप लेंगे  4:10  यह शक्तिशाली मॉडल और एक भाग को फिर से प्रशिक्षित करें  4:13  इसका या पूरी बात अपने आप से  4:15  डेटा इस तकनीक को दिखाया गया है  4:17  शुरू करने की तुलना में बहुत बेहतर मॉडल तैयार करें  4:19  अपने डेटा के साथ खरोंच से प्रशिक्षण और  4:21  इससे भी अच्छी बात यह है कि openai open  4:24  उनके कोड और सब कुछ सोर्स किया  4:25  एपीआई के बजाय ताकि आप कानाफूसी का उपयोग कर सकें  4:28  एक पूर्व प्रशिक्षित नींव वास्तुकला के रूप में  4:30  निर्माण करने और अधिक शक्तिशाली बनाने के लिए  4:33  अपने लिए मॉडल कुछ लोगों के पास है  4:35  जैसे उपकरण पहले ही जारी कर दिए हैं  4:37  YouTube कानाफूसी करने वाला जेफ़ का चेहरा खोलता है  4:39  एक YouTube लिंक लेकर टाइप कर रहा है और  4:42  ट्रांसक्रिप्शन उत्पन्न करना जो मुझे मिला  4:44  यानिक किटर के लिए धन्यवाद वे भी  4:46  के लिए एक Google Collab नोटबुक जारी किया  4:48  कुछ के साथ तुरंत खेलें  4:50  प्रतियोगिता महत्वपूर्ण है मुझे खुशी है कि openai is  4:53  अपना कुछ काम जनता के लिए जारी करना  4:54  मुझे विश्वास है कि ऐसे सहयोग हैं  4:57  हमारे क्षेत्र में आगे बढ़ने का सबसे अच्छा तरीका चलो  5:00  मुझे पता है कि आप क्या सोचते हैं यदि आप करना चाहते हैं  5:01  openai या if . की अधिक सार्वजनिक रिलीज़ देखें  5:04  आपको उनके द्वारा बनाए गए अंतिम उत्पाद पसंद हैं  5:06  हमेशा की तरह डेली की तरह आप और पा सकते हैं  5:08  कागज में कानाफूसी के बारे में जानकारी  5:11  और कोड नीचे लिंक किया गया है और मुझे आशा है कि आपने  5:13  इस वीडियो का आनंद लिया मैं आपको आगे देखूंगा  5:15  एक और अद्भुत पेपर के साथ सप्ताह

This story contains new, firsthand information uncovered by the writer.

Assembly

Google

PlayStation

YouTube

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Nominated for 2022 - HackerNoon Contributor of the Year - Computer Vision

Nominated for 2022 - HackerNoon Contributor of the Year - Google

Nominated for 2022 - HackerNoon Contributor of the Year - Machine Learning

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

बहुत लंबा; पढ़ने के लिए

OpenAI का व्हिस्पर मॉडल क्या है?

OpenAI का व्हिस्पर मॉडल क्या है?

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

State of the Noonion: Green Clock Strikes Noon

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

State of the Noonion: Green Clock Strikes Noon

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps