आभासी वास्तविकता (वीआर) ने तकनीक के साथ हम कैसे बातचीत करते हैं, इसमें नए मोर्चे खोल दिए हैं। मुझे हाल ही में एक टेक डेमो के साथ उन सीमाओं को और आगे बढ़ाने का अवसर मिला था जो वीआर अनुभव में चैटजीपीटी , गूगल स्पीच-टू-टेक्स्ट (एसटीटी) और अमेज़ॅन वेब सर्विसेज (एडब्ल्यूएस) पोली को एकीकृत करता है।
परिणाम?
एआई-पावर्ड रेडी प्लेयर मी अवतार के साथ वास्तव में एक दिलचस्प और संवादात्मक बातचीत, चैटजीपीटी की प्रतिक्रियाओं से संचालित और वॉयस इनपुट और आउटपुट क्षमताओं से समृद्ध।
इस टेक डेमो के पीछे की अवधारणा एक वर्चुअल रूम बनाना था जहां उपयोगकर्ता चैटजीपीटी द्वारा संचालित एआई अवतार के साथ यथार्थवादी बातचीत कर सकें।
अनुभव को अगले स्तर पर ले जाने के लिए, मैंने ध्वनि इनपुट के लिए Google STT को एकीकृत किया, जो उपयोगकर्ता के भाषण को पाठ में लिप्यंतरित करता है। यह पाठ तब प्रसंस्करण के लिए एक माइक्रो-सेवा को भेजा जाता है और एक प्रासंगिक प्रतिक्रिया उत्पन्न करने के लिए चैटजीपीटी को अग्रेषित किया जाता है। एक बार प्रतिक्रिया उत्पन्न होने के बाद, AWS पोली का उपयोग टेक्स्ट-टू-स्पीच (TTS) रूपांतरण के लिए किया जाता है, और आउटपुट को वॉयस प्रोसेसिंग के लिए अवतार में वापस भेज दिया जाता है, जिसके परिणामस्वरूप ज्यादातर सहज और गतिशील बातचीत होती है।
इस टेक डेमो की असाधारण विशेषताओं में से एक रेडी प्लेयर मी अवतारों का एकीकरण है, जिसमें लिप सिंक चालू है। इसका मतलब यह है कि जैसे ही ऑडियो चलता है, अवतार का मुंह उनके भाषण के साथ तालमेल बिठाता है, जिससे अत्यधिक यथार्थवादी और संवादात्मक बातचीत का अनुभव बनता है। ये अवतार एआई के दृश्य प्रतिनिधित्व के रूप में काम करते हैं, बातचीत में विसर्जन और वैयक्तिकरण की एक परत जोड़ते हैं।
बातचीत को आकर्षक बनाने के लिए, मैंने ChatGPT के लिए तीन प्री-फिल्ड प्रॉम्प्ट परिदृश्य बनाए।
पहले परिदृश्य में, एआई एक वित्तीय प्रतिनिधि की भूमिका निभाता है, जो वित्त और निवेश के प्रबंधन पर सलाह प्रदान करता है।
दूसरे परिदृश्य में एआई एक मनोचिकित्सक के रूप में कार्य करता है, आभासी चिकित्सा और परामर्श प्रदान करता है।
अंत में, तीसरे परिदृश्य में, एआई वर्चुअल गियर और आइटम बेचने वाले एक फंतासी व्यापारी के व्यक्तित्व को लेता है।
ये परिदृश्य वित्त, मानसिक स्वास्थ्य और मनोरंजन जैसे विभिन्न डोमेन में इस तकनीक के संभावित उपयोग के मामलों की एक झलक प्रदान करते हैं।
हालाँकि इसके बारे में पर्याप्त बात नहीं की गई है, शीघ्र इंजीनियरिंग अपने आप में एक प्रतिभा है। जैसा कि आप कोड में देख सकते हैं, एक प्रासंगिक दृश्य की स्थापना करना और यह सुनिश्चित करना कि अवतार चरित्र नहीं खोता है, जटिल हो सकता है। अनिवार्य रूप से, हमें यह सुनिश्चित करने की आवश्यकता है कि मॉडल स्क्रिप्ट को तोड़ता नहीं है बल्कि यथार्थवादी बना रहता है। ऊपर दिए गए पूर्ण वीडियो से, आप पाएंगे कि फैंटेसी व्यापारी कभी-कभी चरित्र को तोड़ता है और अपनी भावनाओं को मुखर करते हुए "वेल, वेल, वेल" कहने का एक दोहरावदार, लगभग घबराया हुआ टिक प्रदर्शित करता है।
यह ध्यान रखना महत्वपूर्ण है कि इस तकनीकी डेमो में मुख्य रूप से कला निर्देशन के लिए तैयार एनिमेशन और मॉडल का उपयोग किया गया था। हालांकि, एक पूर्ण एप्लिकेशन के लिए, यथार्थवादी एनिमेशन में निवेश करना, जिसमें सकारात्मक/नकारात्मक एनीमेशन टोन के लिए सेंटिमेंट विश्लेषण के साथ टॉकिंग एनिमेशन और प्रसंस्करण समय के दौरान फिलर एनिमेशन शामिल हैं, एआई इंटरैक्शन की विश्वसनीयता और स्वाभाविकता को बढ़ा सकते हैं। यह इमर्सिव अनुभव को और बढ़ाएगा और इसे मानव जैसी बातचीत के समान बना देगा।
वास्तव में इमर्सिव वीआर वार्तालाप अनुभव बनाने में चुनौतियों में से एक हमारी इंद्रियों की सीमाएं हैं। आभासी वातावरण में, हम आमतौर पर दुनिया को देखने और उसके साथ बातचीत करने के लिए दृष्टि और ध्वनि पर भरोसा करते हैं। चूंकि ये दो इंद्रियां हैं जो लगी हुई हैं, जब किसी परिदृश्य में कुछ गलत लगता है तो आप अति-जागरूक होते हैं। आभासी दुनिया को और अधिक वास्तविक महसूस कराने और पर्यावरण की वास्तविक प्रकृति से विचलित करने के लिए, वास्तविक दुनिया के वातावरण की नकल करने वाले विश्वसनीय परिवेश बनाना महत्वपूर्ण है।
वीआर में उपस्थिति की भावना पैदा करने में दृश्य महत्वपूर्ण भूमिका निभाते हैं। यथार्थवादी 3D मॉडल का उपयोग करने से मदद मिल सकती है, लेकिन बनावट, प्रकाश व्यवस्था और एनिमेशन एक ऐसा वातावरण बना सकते हैं जो स्टाइलिश ग्राफिक्स के साथ भी वास्तविक दुनिया जैसा दिखता और महसूस होता है। उदाहरण के लिए, यदि एआई अवतार को आभासी कार्यालय में रखा जाता है, तो सटीक कार्यालय फर्नीचर, सजावट और प्रकाश व्यवस्था का उपयोग करके एक परिचित वातावरण बना सकते हैं जिससे उपयोगकर्ता संबंधित हो सकते हैं, जिससे बातचीत अधिक प्रामाणिक लगती है।
ध्वनि एक अन्य प्रमुख तत्व है जो वीआर वार्तालापों में तल्लीनता जोड़ता है। स्थानिक ऑडियो, जहां ध्वनि उपयोगकर्ता की स्थिति और सिर की गति के आधार पर दिशा और तीव्रता बदलती है, उपस्थिति की भावना को काफी बढ़ा सकती है।
उदाहरण के लिए, यदि उपयोगकर्ता एआई अवतार की आवाज उस दिशा से सुनता है जहां अवतार स्थित है, तो यह बातचीत के यथार्थवाद को जोड़ता है। हालाँकि, अवतार की ध्वनि से भी अधिक महत्वपूर्ण दिन-प्रतिदिन की सफेद शोर ध्वनि है। सहायक कागज़ों की गड़गड़ाहट की आवाजें, लोग बाहर घूमते हुए, फोन आदि। ये श्वेत-शोर पैदा करने वाली आवाजें किसी भी संगणना सोच को छिपाने में मदद करने के लिए आवश्यक हैं और उपयोगकर्ता को विचलित करने और उन्हें एक वास्तविक विसर्जन में रखने में मदद करेंगी।
वीडियो इंटरैक्शन के रिप्ले देखने पर, वे सभी बंद लगेंगे। वातावरण विशेष रूप से डिबग ओवरले के लिए तैयार किया गया था, और सभी पृष्ठभूमि सफेद शोर अनुपस्थित थे। अगर मुझे एक यथार्थवादी अनुभव बनाने पर ध्यान केंद्रित करना होता तो मेरे फोकस क्षेत्रों में शामिल होता; एनिमेशन, साउंड डिज़ाइन, सेट डिज़ाइन और शीघ्र इंजीनियरिंग। यह महत्व का क्रम होगा, त्वरित इंजीनियरिंग मेरे विचारों में आखिरी होगी क्योंकि जब आप एआई से बात कर रहे हैं, तो यह आपको कभी-कभी झटका दे सकता है कि यह भविष्यवाणी करने में कितना अच्छा हो सकता है कि इसे आगे क्या कहना चाहिए, खासकर एक कुएं के साथ समयबद्ध एनीमेशन।
जहां यह टेक डेमो वीआर अनुभव में चैटजीपीटी, गूगल एसटीटी और एडब्ल्यूएस पोली को एकीकृत करने की विशाल क्षमता को प्रदर्शित करता है, वहीं यह महत्वपूर्ण नैतिक विचारों को भी उठाता है। यह सुनिश्चित करना कि उपयोगकर्ता डेटा को सुरक्षित और जिम्मेदारी से संभाला जाता है और एआई मॉडल को निष्पक्ष और निष्पक्ष तरीके से प्रशिक्षित किया जाता है, ऐसी तकनीकों के विकास और तैनाती में प्राथमिकता दी जानी चाहिए। जैसे-जैसे ये इंटरैक्शन अधिक व्यापक रूप से उपलब्ध होते जाते हैं, वैसे-वैसे सिम्युलेटेड वर्चुअल इंसानों को व्यक्तिगत जानकारी को इच्छुक उपयोगकर्ताओं से बाहर निकालने के लिए ब्लैक मिरर के एक एपिसोड से बाहर की तरह लग सकता है, लेकिन जल्दी ही संभावना के दायरे में आ रहा है।
अंत में, यह टेक डेमो एआई के साथ वीआर इंटरैक्शन में सीमाओं को तोड़ने की दिशा में एक महत्वपूर्ण कदम का प्रतिनिधित्व करता है। ChatGPT, Google STT, और AWS पोली का एकीकरण शिक्षा, ग्राहक सेवा और मनोरंजन जैसे डोमेन में रोमांचक संभावनाओं का मार्ग प्रशस्त करते हुए, गहन और गतिशील वार्तालाप को सक्षम बनाता है। एनीमेशन और एआई प्रौद्योगिकियों में आगे की प्रगति के साथ, हम एक ऐसे भविष्य की उम्मीद कर सकते हैं जहां एआई अवतारों के साथ आभासी बातचीत अधिक स्वाभाविक, आकर्षक और मुख्यधारा बन जाए। इस तकनीक की क्षमता बहुत बड़ी है, और मैं यह देखकर रोमांचित हूं कि यह कैसे विकसित होती है और आभासी दुनिया में एआई के साथ हमारी बातचीत को बदल देती है।
सिगमंड माइक्रोसर्विस के लिए जीथब: https://github.com/goldsziggy/sigmund
माइक्रोसर्विस के लिए डॉकर फ़ाइल:
docker run -it -p 8080:8080 --env-file .env matthewzygowicz/ms-sigmund
यदि पर्याप्त रुचि एकत्र की जाती है, तो मैं सभी ओपन-सोर्स संपत्तियों का उपयोग करके ओपन-सोर्स के साथ-साथ कोड के यूनिटी हिस्से को फिर से लिख सकता/सकती हूं।