paint-brush
इलेवनलैब्स, स्ट्रीमलिट और क्लाउड के साथ एक सरल शब्द वर्तनी ऐप बनानाद्वारा@lablab
1,055 रीडिंग
1,055 रीडिंग

इलेवनलैब्स, स्ट्रीमलिट और क्लाउड के साथ एक सरल शब्द वर्तनी ऐप बनाना

द्वारा lablab.ai hackathons12m2023/07/22
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इलेवनलैब्स एक ध्वनि प्रौद्योगिकी अनुसंधान कंपनी है जो वाक् संश्लेषण समाधान प्रदान करती है। उपयोग में आसान एपीआई के साथ, यह डेवलपर्स को एआई का उपयोग करके उच्च गुणवत्ता वाले भाषण उत्पन्न करने की अनुमति देता है। यह एआई मॉडल द्वारा संभव हुआ है जिसे बड़ी संख्या में ऑडियोबुक और पॉडकास्ट पर प्रशिक्षित किया गया है।
featured image - इलेवनलैब्स, स्ट्रीमलिट और क्लाउड के साथ एक सरल शब्द वर्तनी ऐप बनाना
lablab.ai hackathons HackerNoon profile picture
0-item
1-item

क्या आप जानते हैं कि जेनरेटिव आवाजें क्या करने में सक्षम हैं? वे कितनी व्यापक संभावनाएँ खोलते हैं और उनसे कितने क्षेत्रों को लाभ हो सकता है?


हो सकता है कि आपको किसी वीडियो ब्लॉग या पुस्तक को आवाज देने के लिए एक ऐप की आवश्यकता हो। शायद आप एक पेशेवर वॉयसओवर के साथ एक खेल चरित्र को जीवंत बनाना चाहते हैं। विदेशी भाषाएँ सीखने के लिए एक एप्लिकेशन बनाने के बारे में आपका क्या ख़याल है?


आज, lablab.ai ने आपके लिए एक ट्यूटोरियल तैयार किया है जो आपको AI वॉयस तकनीकों को बेहतर ढंग से जानने में मदद करेगा! आइए गोता लगाएँ!

परिचय

यह सॉफ़्टवेयर विकास के लिए सबसे रोमांचक समय में से एक है, बाज़ार में विभिन्न " जेनरेटिव एआई " टूल के उद्भव के साथ। बस इसे नाम दें, कवर लेटर जेनरेशन? जाँच करना! ई-मेल जनरेशन? जाँच करना! स्वचालित कोड टिप्पणी पीढ़ी? जाँच करना! यहां तक कि कोडिंग और सॉफ्टवेयर विकास के बाहर भी, उपयोग की संभावनाएं बहुत अधिक हैं।


अब, हम विभिन्न छवि निर्माण मॉडल के साथ टेक्स्ट संकेतों के साथ छवियां उत्पन्न कर सकते हैं। इस प्रकार, यह हमारे लिए अपने विभिन्न उत्पादों में उत्पन्न संपत्तियों को शामिल करना संभव बनाता है। अगला सवाल यह है: आवाजों के बारे में क्या ख्याल है? पिछले कुछ वर्षों में उपयोगकर्ता अनुभवों के रुझान में उभरते रुझानों में से एक के रूप में "वॉयस कमांड" का उल्लेख किया गया है।


यह स्वाभाविक है कि हम जो सॉफ़्टवेयर बनाएंगे, उसमें एक विशेषता के रूप में आवाज़ें भी शामिल होंगी। यही कारण है कि, इस ट्यूटोरियल में, हम एक सरल ऐप में इलेवनलैब्स द्वारा पेश की गई " स्पीच सिंथेसिस " सुविधा का प्रदर्शन करेंगे, जो यादृच्छिक शब्द उत्पन्न करता है और इसे वर्तनी देता है। इस पायथन-आधारित ऐप के लिए यूआई बनाने के लिए, हम डेटा विज्ञान परियोजनाओं को साझा करने के लिए एक नई यूआई लाइब्रेरी स्ट्रीमलिट का उपयोग करेंगे।

इलेवनलैब्स का परिचय

इलेवनलैब्स एक ध्वनि प्रौद्योगिकी अनुसंधान कंपनी है जो वाक् संश्लेषण समाधान प्रदान करती है। एपीआई का उपयोग करना आसान होने के साथ, यह डेवलपर्स को एआई का उपयोग करके उच्च गुणवत्ता वाले भाषण उत्पन्न करने की अनुमति देता है। यह एआई मॉडल द्वारा संभव हुआ है जिसे बड़ी संख्या में ऑडियोबुक और पॉडकास्ट पर प्रशिक्षित किया गया है। प्रशिक्षण एआई को भाषण निर्माण में पूर्वानुमानित और उच्च गुणवत्ता वाले परिणाम देने की अनुमति देता है।


एलेवेनलैब्स द्वारा पेश की जाने वाली दो मुख्य विशेषताएं हैं, पहला वॉयसलैब है, जहां उपयोगकर्ता रिकॉर्ड किए गए ऑडियो और/या मौजूदा पूर्व-निर्मित आवाजों से आवाजों को क्लोन कर सकते हैं, और लिंग, उम्र, जातीयता और नस्ल के आधार पर आवाजों को "डिज़ाइन" भी कर सकते हैं। एक बार जब उपयोगकर्ताओं के पास काम करने के लिए आवाज़ें आ जाती हैं, तो वे अगली सुविधा, स्पीच सिंथेसिस पर आगे बढ़ सकते हैं, जहां वे अपनी डिज़ाइन की गई आवाज़ों का उपयोग करके या केवल पूर्व-निर्मित आवाज़ों का उपयोग करके भाषण तैयार कर सकते हैं।

एंथ्रोपिक के क्लाउड मॉडल का परिचय

क्लाउड एक एआई अनुसंधान संगठन एंथ्रोपिक द्वारा विकसित नवीनतम एआई मॉडल है जो कृत्रिम बुद्धिमत्ता प्रणालियों की अंतरसंचालनीयता, मजबूती और सुरक्षा में सुधार पर केंद्रित है।


क्लाउड मॉडल को मानव-जैसी प्रतिक्रियाएँ उत्पन्न करने के लिए डिज़ाइन किया गया है, जो इसे सामग्री निर्माण, कानूनी से लेकर ग्राहक सेवा तक, अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक शक्तिशाली उपकरण बनाता है। बाज़ार में किसी भी अन्य एआई मॉडल की तरह, क्लाउड को भी इंटरनेट टेक्स्ट की विविध रेंज पर प्रशिक्षित किया गया है। हालाँकि, अधिकांश AI मॉडल के विपरीत, इसमें "सुरक्षा" पर ध्यान केंद्रित किया गया है, जो उन आउटपुट को अस्वीकार करना संभव बनाता है जिन्हें यह उपयोगकर्ताओं के लिए "हानिकारक" या "झूठा" मानता है।

स्ट्रीमलिट का परिचय

स्ट्रीमलिट एक ओपन-सोर्स पायथन लाइब्रेरी है जो डेवलपर्स और डेटा वैज्ञानिकों के लिए आकर्षक और अनुकूलित वेब ऐप्स बनाना और साझा करना आसान और संभव बनाती है। डेवलपर्स मिनटों में पूरी तरह से फीचर्ड डेटा साइंस ऐप्स बनाने और तैनात करने के लिए स्ट्रीमलिट का उपयोग कर सकते हैं। यह सरल और सहज एपीआई द्वारा संभव हुआ है जिसका उपयोग डेटा स्क्रिप्ट को यूआई घटकों में बदलने के लिए किया जा सकता है।

आवश्यक शर्तें

  • स्ट्रीमलिट का उपयोग करके पायथन और यूआई विकास का बुनियादी ज्ञान
  • एंथ्रोपिक एपीआई तक पहुंच
  • इलेवनलैब्स एपीआई तक पहुंच

खाका

  1. हमारे स्ट्रीमलिट प्रोजेक्ट को प्रारंभ किया जा रहा है
  2. क्लाउड मॉडल का उपयोग करके वर्ड जेनरेशन फ़ीचर जोड़ना
  3. इलेवनलैब्स एपीआई का उपयोग करके स्पीच जेनरेशन फीचर जोड़ना
  4. वर्ड जेनरेटर ऐप का परीक्षण

बहस

इस ट्यूटोरियल में हम कम से कम चार चरणों से गुजरेंगे। स्ट्रीमलिट का उपयोग करके यूजर इंटरफेस विकसित करने का सामान्य अनुभव प्राप्त करने के लिए सबसे पहले हमें स्ट्रीमलिट-आधारित प्रोजेक्ट को प्रारंभ करने की आवश्यकता है।


इसके बाद, हम और अधिक सुविधाएँ जोड़ना शुरू करते हैं, जिसकी शुरुआत इंजीनियरिंग प्रॉम्प्ट से होती है ताकि क्लाउड मॉडल हमें एक यादृच्छिक शब्द दे सके जो आमतौर पर गलत वर्तनी वाला होता है। उसके बाद, हम यह प्रदर्शित करने के लिए कि बहुभाषी मॉडल शब्दों को कैसे लिखते हैं, इलेवनलैब्स द्वारा प्रदान की गई टेक्स्ट-टू-वॉयस पीढ़ी जोड़ देंगे। अंत में, हम सरल ऐप का परीक्षण करने जा रहे हैं।

हमारे स्ट्रीमलिट प्रोजेक्ट को प्रारंभ किया जा रहा है

आइए कोडिंग क्रिया में शामिल हों! सबसे पहले, आइए अपने प्रोजेक्ट के लिए एक निर्देशिका बनाएं और उसे दर्ज करें!

 mkdir randomwords cd randomwords


आगे, हम इस निर्देशिका को अपने स्ट्रीमलिट प्रोजेक्ट के आधार के रूप में उपयोग करने जा रहे हैं। क्योंकि स्ट्रीमलिट प्रोजेक्ट अनिवार्य रूप से एक पायथन प्रोजेक्ट है, हमें अपने पायथन प्रोजेक्ट को आरंभ करने के लिए कुछ कदम उठाने की आवश्यकता है, जैसे कि हमारे आभासी वातावरण को परिभाषित करना और सक्रिय करना।

 # Creating the virtual environment python -m venv env # Activate the virtual environment # On Linux/Mac source env/bin/activate # On Windows: .\env\Scripts\activate

एक बार सक्रिय होने पर, हमारे टर्मिनल के आउटपुट को वर्चुअल वातावरण (env) का नाम दिखाना चाहिए, जैसे:


इसके बाद, इस परियोजना के लिए आवश्यक पुस्तकालयों को स्थापित करने का समय आ गया है! आइए streamlit , anthropic और elevenlabs लाइब्रेरी को स्थापित करने के लिए pip कमांड का उपयोग करें। ध्यान दें कि हम elevenlabs फ़ंक्शन में से एक में पाइडेंटिक-संबंधित त्रुटि को रोकने के लिए एक संस्करण-लॉक pydantic लाइब्रेरी भी स्थापित करते हैं।

 pip install streamlit anthropic elevenlabs "pydantic==1.*"


परियोजना की सभी आवश्यकताओं को पूरा करने के बाद, आइए अब कोडिंग भाग पर ध्यान दें! हमारी प्रोजेक्ट निर्देशिका के अंदर एक नई फ़ाइल बनाएं, आइए इसे randomwords_app.py कहते हैं।

 touch randomwords_app.py


फ़ाइल बन जाने के बाद, आइए फ़ाइल को अपने पसंदीदा कोड संपादक या एकीकृत विकास वातावरण (आईडीई) में खोलें। शुरुआत के लिए, आइए सबसे सरल हिस्सों, एक शीर्षक और कैप्शन के लिए एक टेक्स्ट से अपना सरल ऐप बनाएं!

 import streamlit as st st.title("Random Words Generator") st.text("Hello, this is a random words generator app")


अपने प्रोजेक्ट इनिशियलाइज़ेशन भाग को पूरा करने के लिए, आइए ऐप को चलाने का परीक्षण करने का प्रयास करें। सुनिश्चित करें कि हमारी वर्तमान कार्यशील निर्देशिका अभी भी हमारे प्रोजेक्ट के अंदर है और हमारा वर्चुअल वातावरण पहले से ही सक्रिय है। जब सब कुछ तैयार हो जाए, तो ऐप चलाने के लिए streamlit run <app-name> का उपयोग करें।

 streamlit run randomwords_app.py

ऐप हमारे डिफ़ॉल्ट ब्राउज़र में स्वचालित रूप से खुल जाना चाहिए! इसे अभी शीर्षक और पाठ दिखाना चाहिए। इसके बाद, हम एंथ्रोपिक के क्लाउड मॉडल का उपयोग करके यादृच्छिक शब्द निर्माण सुविधा जोड़ने जा रहे हैं।


हालाँकि एक आखिरी बात, हमें अपने ऐप को उन सेवाओं के लिए एपीआई कुंजियाँ प्रदान करनी होंगी जिनका हम उपयोग करने जा रहे हैं, अर्थात् एंथ्रोपिक का क्लाउड मॉडल और इलेवनलैब्स का स्पीच सिंथेसिस फीचर। चूंकि इन चाबियों को संवेदनशील माना जाता है, इसलिए हमें इन्हें सुरक्षित और अलग जगह पर रखना चाहिए।


हालाँकि, इस बार हम उन्हें .env फ़ाइल में संग्रहीत नहीं करते हैं। ऐसा इसलिए है क्योंकि स्ट्रीमलाइट पर्यावरण चर के साथ अलग तरह से व्यवहार करता है। दस्तावेज़ीकरण के अनुसार, हमें .streamlit निर्देशिका के अंदर एक गुप्त कॉन्फ़िगरेशन फ़ाइल बनाने की आवश्यकता है। हम अपने प्रोजेक्ट के अंदर निर्देशिका बना सकते हैं और फिर फ़ाइल बना सकते हैं।

 mkdir .streamlit touch .streamlit/secrets.toml


आइए हमारे द्वारा बनाई गई TOML फ़ाइल को संपादित करें, ध्यान दें कि TOML फ़ाइल सामान्य .env फ़ाइल से भिन्न स्वरूपण का उपयोग करती है।

 xi_api_key = "xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" claude_key = "sk-ant-xxxxxxxxxxxxxxxxxxxxxxxxxxxxx"

क्लाउड मॉडल का उपयोग करके वर्ड जेनरेशन फ़ीचर जोड़ना

इस चरण में, हम एक बटन जोड़ेंगे जो यादृच्छिक शब्द उत्पन्न करेगा, शीर्षक तत्व उत्पन्न शब्द को दिखाएगा और उपशीर्षक शब्द का अर्थ दिखाएगा। हालाँकि, एक वेबडेव पृष्ठभूमि से आने के कारण, मेरा दृढ़ विश्वास है कि यूआई तत्वों को कंटेनरों के अंदर रखा और व्यवस्थित किया जाना चाहिए। तो, हम बिलकुल वैसा ही करेंगे।

आवश्यक पुस्तकालय आयात करें

सबसे पहले, आइए कुछ आयात विवरण जोड़ें। हम अपने यादृच्छिक शब्द उत्पन्न करने के लिए anthropic पुस्तकालय का आयात करने जा रहे हैं।

 import streamlit as st import anthropic


फिर, इससे पहले कि हम यूआई भाग पर जाएं, आइए पहले अपना वर्ड जेनरेशन फ़ंक्शन बनाएं।

शब्द निर्माण फलन को परिभाषित करना

 def generate_word(): prompt = (f"{anthropic.HUMAN_PROMPT} Give me one non-English word that's commonly misspelled and the meaning. Please strictly follow the format! example: Word: Schadenfreude; Meaning: joy at other's expenses." f"{anthropic.AI_PROMPT} Word: Karaoke; Meaning: a form of entertainment where people sing popular songs over pre-recorded backing tracks." f"{anthropic.HUMAN_PROMPT} Great! just like that. Remember, only respond following the pattern.") c = anthropic.Anthropic(api_key=st.secrets["claude_key"]) resp = c.completions.create( prompt=f"{prompt} {anthropic.AI_PROMPT}", stop_sequences=[anthropic.HUMAN_PROMPT], model="claude-v1.3-100k", max_tokens_to_sample=900, ) print(resp.completion) return resp.completion

इस फ़ंक्शन में, सबसे भारी भारोत्तोलन ** एंथ्रोपिक के क्लाउड मोड **l (धन्यवाद, क्लाउड ! 😉) द्वारा किया जाता है। हालाँकि, इस फ़ंक्शन में हमारा हिस्सा यह है कि क्लाउड को लगातार सटीक प्रारूप में कैसे लौटाया जाए। इसलिए हमें क्लाउड को "सख्ती से प्रारूप का पालन करने" का निर्देश देने की आवश्यकता है और इसे हमारे प्रारंभिक संकेत के बाद जोड़कर एक उदाहरण प्रतिक्रिया देनी होगी।


अंत में, हम यह सुनिश्चित करते हैं कि क्लाउड हमारे समझौतों का अनुपालन करे और उसे "याद रखें कि केवल पैटर्न का पालन करते हुए ही प्रतिक्रिया दें"। फ़ंक्शन क्लाउड से प्रतिक्रिया लौटाकर समाप्त होता है।

इसके बाद, आइए यूआई को संपादित करने पर वापस आते हैं!

यूआई अद्यतन कर रहा है

 st.title("Random Words Generator") with st.container(): st.header("Random Word") random_word = st.subheader("-") word_meaning = st.text("Meaning: -") st.write("Click the `Generate` button to generate new word") if st.button("Generate"): result = generate_word() # Split the string on the semicolon split_string = result.split(";") # Split the first part on ": " to get the word word = split_string[0].split(": ")[1] # Split the second part on ": " to get the meaning meaning = split_string[1].split(": ")[1] print(f"word result: {word}") random_word.subheader(word) word_meaning.text(f"Meaning: {meaning}")

इस बार, हमने इसके अंदर कुछ तत्वों के साथ एक कंटेनर जोड़ा है। यादृच्छिक शब्द प्रदर्शित करने के लिए शीर्षलेख, उपशीर्षक और शब्द का अर्थ दिखाने के लिए पाठ तत्व। हमारे पास ऐप का उपयोग करने के तरीके के बारे में संकेत दिखाने के लिए एक टेक्स्ट भी है, साथ ही उसके नीचे एक बटन भी है।


स्ट्रीमलिट में, हम एक सशर्त कथन का उपयोग करके क्लिक इवेंट हैंडलर घोषित कर सकते हैं, जहां बटन पर क्लिक करने पर यह True लौटाता है। इस कोड में, हम generate_word() फ़ंक्शन को लागू करते हैं जो उत्पन्न शब्द और अर्थ लौटाता है, और परिणाम को क्रमशः शब्द और अर्थ के लिए अलग-अलग चर में विभाजित करता है। अंत में, हम शब्द और अर्थ प्रदर्शित करने के लिए उपशीर्षक और पाठ तत्व को अद्यतन करते हैं।

अंतिम फॉर्म

आइए एक बार फिर से अपने कोड की दोबारा जांच करें! इसमें आयात विवरण, यादृच्छिक शब्द उत्पन्न करने के लिए फ़ंक्शन, और अद्यतन यूआई जिसमें सबहेडर, और टेक्स्ट तत्व और साथ ही बटन शामिल होना चाहिए जो generate_word() फ़ंक्शन को लागू करके शब्द उत्पन्न करता है।

 import streamlit as st import anthropic def generate_word(): prompt = (f"{anthropic.HUMAN_PROMPT} Give me one non-English word that's commonly misspelled and the meaning. Please strictly follow the format! example: Word: Schadenfreude; Meaning: joy at other's expenses." f"{anthropic.AI_PROMPT} Word: Karaoke; Meaning: a form of entertainment where people sing popular songs over pre-recorded backing tracks." f"{anthropic.HUMAN_PROMPT} Great! just like that. Remember, only respond following the pattern.") c = anthropic.Anthropic(api_key=st.secrets["claude_key"]) resp = c.completions.create( prompt=f"{prompt} {anthropic.AI_PROMPT}", stop_sequences=[anthropic.HUMAN_PROMPT], model="claude-v1.3-100k", max_tokens_to_sample=900, ) print(resp.completion) return resp.completion st.title("Random Words Generator") with st.container(): st.header("Random Word") random_word = st.subheader("-") word_meaning = st.text("Meaning: -") st.write("Click the `Generate` button to generate new word") if st.button("Generate"): result = generate_word() # Split the string on the semicolon split_string = result.split(";") # Split the first part on ": " to get the word word = split_string[0].split(": ")[1] # Split the second part on ": " to get the meaning meaning = split_string[1].split(": ")[1] print(f"word result: {word}") random_word.subheader(word) word_meaning.text(f"Meaning: {meaning}")

वर्ड जनरेशन फ़ंक्शन का परीक्षण

आइए ऐप को एक बार फिर उसी कमांड के साथ चलाएं। हम ऊपरी दाएं मेनू पर क्लिक करके ऐप को फिर से चला सकते हैं और यदि हमने पहले ऐप चलाया है तो " फिर से चलाएँ " पर क्लिक करें।

इसे यह अद्यतन उपयोगकर्ता इंटरफ़ेस दिखाना चाहिए।

अब, आइए Generate बटन पर क्लिक करने का प्रयास करें!

स्ट्रीमलिट के बारे में एक अच्छी बात यह है कि यह लोडिंग को संभालता है और बॉक्स के बाहर लोडिंग इंडिकेटर प्रदान करता है। हमें ऊपरी-दाएँ कोने में संकेतक देखना चाहिए, साथ ही ऑपरेशन को " रोकने " का विकल्प भी देखना चाहिए। साफ़-सुथरा, हुह?

कुछ सेकंड के बाद, परिणाम यूआई में दिखाया जाना चाहिए।

उत्तम! ध्यान दें कि ऐप ने क्लाउड मॉडल से उत्पन्न टेक्स्ट को शब्द और अर्थ में सही ढंग से विभाजित किया है। हालाँकि, यदि परिणाम अपेक्षित प्रारूप के अनुसार नहीं आता है, तो हम हमेशा Generate बटन पर फिर से क्लिक कर सकते हैं।


अगला कदम इस ऐप की मुख्य विशेषता है, हमारे यादृच्छिक शब्द जनरेटर में भाषण पीढ़ी को शामिल करना। इलेवनलैब्स द्वारा प्रदान की गई एपीआई का उपयोग करके ऑडियो फ़ाइल कैसे उत्पन्न करें, यह प्रदर्शित करने के अलावा, यह चरण इलेवनलैब्स के बहुभाषी मॉडल की क्षमताओं को प्रदर्शित करने का भी काम करता है।

इलेवनलैब्स एपीआई का उपयोग करके स्पीच जेनरेशन फीचर जोड़ना

इस अनुभाग का पहला चरण, जैसा कि आपने शायद अनुमान लगाया है, अधिक आयात विवरण जोड़ना है! तो, आइए elevenlabs से कुछ फ़ंक्शन जोड़ें जिनका उपयोग हम स्पीच जेनरेशन सुविधा के लिए करेंगे।

 import streamlit as st import anthropic ++ from elevenlabs import generate, set_api_key


आगे, हम भाषण निर्माण को संभालने के लिए फ़ंक्शन को परिभाषित करने जा रहे हैं।

 def generate_speech(word): set_api_key(st.secrets['xi_api_key']) audio = generate( text=word, voice="Bella", model='eleven_multilingual_v1' ) return audio


पायथन की सरलता और पठनीयता और इलेवनलैब्स के उपयोग में आसान एपीआई के लिए धन्यवाद, हम अकेले इस कोड का उपयोग करके भाषण उत्पन्न कर सकते हैं! फ़ंक्शन उस यादृच्छिक शब्द को स्वीकार करता है जिसका उपयोग हम भाषण उत्पन्न करने के लिए करते हैं। हम विशेष रूप से "ग्यारह_बहुभाषी_v1" मॉडल का भी उपयोग करते हैं जो एक बहुभाषी मॉडल है, जो विदेशी और आमतौर पर गलत वर्तनी वाले शब्दों की वर्तनी और उच्चारण को प्रदर्शित करने के लिए हमारे उपयोग के मामले में बिल्कुल उपयुक्त है! अंत में, हम इस ट्यूटोरियल के लिए " बेला " आवाज का उपयोग करते हैं, जो कि इलेवनलैब्स द्वारा प्रदान की गई पूर्व-निर्मित आवाज में से एक है।


इसके बाद, हम उत्पन्न भाषण को चलाने के लिए एक ऑडियो प्लेयर जोड़ेंगे।

 print(f"word result: {word}") random_word.subheader(word) word_meaning.text(f"Meaning: {meaning}") ++ speech = generate_speech(word) ++ st.audio(speech, format='audio/mpeg')

पहले से हमारे नवीनतम कोड के ठीक नीचे, हम उत्पन्न भाषण को संग्रहीत करने के लिए वेरिएबल जोड़ते हैं, और स्ट्रीमलिट से st.audio फ़ंक्शन द्वारा प्रदान किए गए ऑडियो प्लेयर का उपयोग करके भाषण चलाते हैं। इस बिंदु पर, हमारे ऐप को उम्मीद के मुताबिक काम करना चाहिए, ऑडियो प्लेयर केवल तभी दिखाना चाहिए जब "पढ़ने" के लिए कोई यादृच्छिक शब्द उपलब्ध हो।


जानना चाहते हैं कि यह कैसे काम करता है? मैं भी! आइए अब ऐप का परीक्षण करें!

शब्द वर्तनी सुविधा का परीक्षण

आइए streamlit run उपयोग करके ऐप को फिर से चलाएं या अगर ऐप पहले से ही चल रहा है तो उसे दोबारा चलाएं। यह बिल्कुल वैसा ही दिखना चाहिए जैसा पिछली बार हमने इसे छोड़ा था। हालाँकि, आइए इस बार "जेनरेट" बटन पर क्लिक करने का प्रयास करें!


अद्भुत! इस बार, ऐप एक ऑडियो प्लेयर भी दिखाता है! आइए इसे खेलने का प्रयास करें। बहुभाषी मॉडल का उपयोग करते हुए, उत्पन्न भाषण में उच्चारण और स्वर का उपयोग किया जाना चाहिए जो शब्द की मूल भाषा के करीब हो। उदाहरण के लिए, "उद्यमी" का उच्चारण फ़्रेंच उच्चारण में किया जाना चाहिए।

निष्कर्ष

इस संक्षिप्त ट्यूटोरियल में, उम्मीद है कि हमने इलेवनलैब्स द्वारा पेश की गई स्पीच जेनरेशन तकनीक की क्षमताओं का पता लगाया है। बहुभाषी मॉडल के साथ, ऐसे भाषण उत्पन्न करना आसान है जो गैर-अंग्रेजी श्रोताओं के लिए हैं। हमारे उपयोग के मामले में, हमें गैर-अंग्रेजी शब्दों के उच्चारण और वर्तनी का सही तरीका खोजने में सहायता के लिए बहुभाषी मॉडल की आवश्यकता है जो आमतौर पर गलत वर्तनी वाले होते हैं।


इतने सारे विचारों के साथ, हम डेवलपर्स को भविष्य बनाने में हमारे साथ शामिल होने के लिए आमंत्रित करते हैं!


28 जुलाई को lablab.ai एक चुनौती शुरू कर रहा है जहां आप ElevenLabs मॉडल के साथ अपना खुद का वॉयस AI ऐप बना सकते हैं! (इसके अतिरिक्त, आप अन्य एआई मॉडल जैसे बड़े भाषा मॉडल, छवि और वीडियो जेनरेटर मॉडल इत्यादि का लाभ उठा सकते हैं, जब तक कि वे हैकथॉन तकनीक के साथ सीधे प्रतिस्पर्धा में नहीं हैं)।


*Your final submission should consist of a ready-to-play working prototype of your idea, a video pitch, and a presentation showcasing your solution.


आप यहां अधिक ट्यूटोरियल पा सकते हैं और अत्याधुनिक प्रौद्योगिकियों के निर्माण के लिए अन्य हैकथॉन में शामिल हो सकते हैं!


और इस लेख के लेखक - सेप्टियन आदि नुग्रहा को बहुत-बहुत धन्यवाद। 💚