paint-brush
यहां एआई डबिंग है जो दुनिया भर में चिंता पैदा कर रही हैद्वारा@AmadeoGlobal
837 रीडिंग
837 रीडिंग

यहां एआई डबिंग है जो दुनिया भर में चिंता पैदा कर रही है

द्वारा TerryChoi2m2024/01/30
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

हाल ही में, वीडियो स्टार्टअप हेजेन द्वारा 2024 वर्ल्ड इकोनॉमिक फोरम में अर्जेंटीना के राष्ट्रपति जेवियर माइली के भाषण की AI डबिंग सोशल मीडिया पर वायरल हो गई।
featured image - यहां एआई डबिंग है जो दुनिया भर में चिंता पैदा कर रही है
TerryChoi HackerNoon profile picture

हाल ही में अर्जेंटीना के राष्ट्रपति की AI डबिंग हुई 2024 विश्व आर्थिक मंच पर जेवियर माइली का भाषण सोशल मीडिया पर वायरल हुआ वीडियो स्टार्टअप हेजेन का।


सॉफ़्टवेयर ने न केवल उनके स्पैनिश शब्दों का अंग्रेजी में सटीक अनुवाद किया, बल्कि लिप सिंक को भी सहजता से संभाला, जो पारंपरिक रूप से वीडियो उद्योग में मानव पेशेवरों के लिए विशेष कार्य है।


हालाँकि कुछ पर्यवेक्षक दावा माइली का हेजेन का संस्करण कुछ हद तक 'स्वानसी में एक दशक के बाद बांग्लादेशी व्यक्ति' जैसा लगता है, मैं इन अफवाहों को खारिज कर दूंगा। एआई-संचालित अर्जेंटीना के राष्ट्रपति की यांत्रिक आवाज और स्वर को नजरअंदाज करना कठिन है।


सच कहूँ तो, असली माइली उससे बेहतर और भावनात्मक रूप से अधिक अभिव्यंजक लगती है।

हाल तक, मीडिया उद्योग को बाधित करने का लक्ष्य रखने वाले एआई स्टार्टअप के लिए भावना और स्वर-शैली सबसे बड़ी चुनौतियां रही हैं। मनुष्य अपनी आवाज़ के माध्यम से जुनून, दुःख या क्रोध व्यक्त करने में अभी भी बेहतर हैं। लेकिन ऐसा लग रहा है कि चीजें बदलने वाली हैं.


एक और हालिया शोकेस जिस पर काफी हद तक किसी का ध्यान नहीं गया, वह एम्स्टर्डम स्थित डबफॉर्मर नामक एआई डबिंग स्टार्टअप से आया है। कंपनी का दावा है कि उसने गानों में भावनाओं और स्वरों का अनुवाद करने की तकनीक विकसित की है।


आप स्वयं निर्णय कर सकते हैं:

स्टार्टअप ने 1964 में ब्रिटिश रॉक बैंड द एनिमल्स द्वारा रिकॉर्ड किए गए "हाउस ऑफ़ द राइजिंग सन" के सबसे प्रसिद्ध संस्करण को स्थानीयकृत किया। ऐसा लगता है कि इस शोकेस में संगीत अभिव्यक्ति के सार और भावनात्मक गहराई को पकड़ने में मानव जैसी गुणवत्ता है।


डबफॉर्मर के सीईओ एंटोन ड्वोरकोविच के अनुसार, कंपनी अपनी इन-हाउस मालिकाना तकनीक पर निर्भर करती है, जिसमें ऑटोमैटिक स्पीच रिकग्निशन (एएसआर), टेक्स्ट-टू-स्पीच (टीटीएस), और वॉयस बायोमेट्रिक्स शामिल हैं।


एआई कार्यान्वयन विशेषज्ञ, समाधान वास्तुकार और शिक्षक मीका बर्कले ने कहा कि डबफॉर्मर की तकनीक एक ऐसे भविष्य को आकार दे रही है जहां एआई कलात्मक अभिव्यक्ति की वैश्विक पहुंच का विस्तार करती है।


व्यक्तिगत रूप से, मैं इस विचार पर अपना सिर नहीं झुका सकता कि एआई आवाज़ें या अनुवाद कभी भी मनुष्यों की भावनात्मक अभिव्यक्ति और जुड़ाव से मेल खा सकते हैं। लेकिन ऐसा लगता है जैसे हम एक बड़े परिवर्तन की अग्रिम पंक्ति में हैं।