हाल के दिनों में बड़े भाषा मॉडलों की उत्पत्ति के साथ, एक बात जिस पर हम गंभीर रूप से बहस करते हैं वह यह है कि क्या AI-जनित सामग्री जैसे AI कला, AI वीडियो आदि सामग्री निर्माताओं की रचनात्मकता को नष्ट कर देगी या गुणवत्ता बढ़ा सकती है और उनकी सहायता कर सकती है। अपने पिछले ब्लॉग में, मैंने इस बारे में बात की थी कि एआई कोड-जनरेशन टूल सॉफ्टवेयर विकास चक्र में मूल्य जोड़ने में कैसे मदद कर सकते हैं, इस पोस्ट में मैं मुख्य रूप से इस बात पर प्रकाश डालूंगा कि कैसे एआई टूल का उपयोग करके वीडियो सामग्री बनाना न केवल आसान और तेज़ हो रहा है बल्कि रचनात्मक भी हो रहा है। .
यह समझने से पहले कि कोई रचनात्मक और आकर्षक सामग्री तैयार करने में वर्तमान वीडियो और छवि मॉडल का लाभ कैसे उठा सकता है, यह समझना महत्वपूर्ण है कि वर्तमान स्थिति कैसी दिखती है, हम वर्तमान एआई वीडियो पीढ़ी परिदृश्य को नीचे के रूप में परत कर सकते हैं:
मौजूदा वीडियो संपादक Adobe, Canva आदि जैसे AI को अपने वर्कफ़्लो में एकीकृत करने का प्रयास कर रहे हैं।
AI-आधारित नए जमाने के वीडियो संपादन उपकरण जैसे Fliki.ai, unscreen.com, synthesia.ai, Hourone.ai, आदि।
वीडियो जनरेशन वर्कफ़्लो में एकल उपयोग के मामले के लिए समर्पित अमूर्त परत , उदाहरण के लिए मिडजॉर्नी वीडियो के लिए यथार्थवादी छवियां बनाने में मदद करती है, रनवेएमएल छवि को वीडियो या छवि को छवि में बदलने के लिए एक मंच प्रदान करता है, डिड छवि में एनीमेशन जोड़ने में मदद करता है, इत्यादि।
मॉडल परत जो संपूर्ण परिदृश्य का आधार बनाती है, सॉफ़्टवेयर टीमें अपने उपयोग के मामलों को अनुकूलित करने के लिए इस परत का लाभ उठा सकती हैं।
जैसे-जैसे हम कस्टमाइज़ करने के लिए परत के लचीलेपन में ऊपर जाते हैं, जबकि उपयोग में आसानी बढ़ती है, इस लेख के संदर्भ में हम यह समझने के लिए गहराई से गोता लगाएंगे कि हम रचनात्मक वीडियो बनाने में एब्स्ट्रैक्शन परत का उपयोग कैसे कर सकते हैं क्योंकि यह परत लचीलेपन के बीच में आती है और उपयोग में आसानी, और एक कलाकार के रूप में व्यक्ति को दोनों दुनियाओं के सर्वश्रेष्ठ की आवश्यकता होती है।
इससे पहले कि हम सीखें कि हम अमूर्त परत में टूल का उपयोग करके टेक्स्ट-टू-वीडियो उत्पन्न करने के लिए एक पाइपलाइन कैसे बना सकते हैं, यह तय करना महत्वपूर्ण है कि वीडियो उत्पन्न करने के लिए चरण क्या होंगे और प्रत्येक परत में कौन से टूल का उपयोग किया जा सकता है।
AI टेक्स्ट-टू-वीडियो जेनरेशन में निम्नलिखित चरण शामिल हैं:
मैंने जो पहला कदम उठाया, वह जीपीटी को प्रत्येक दृश्य में शामिल पात्रों के बीच संवादों के रूप में हिंदी स्क्रिप्ट देने के लिए प्रेरित करना था।
इनपुट
उत्पादन
यह महत्वपूर्ण कदम है और इसमें उस दृश्य के लिए चित्र बनाना शामिल है जिसे स्क्रिप्ट से तोड़ दिया गया था, यह सब इस बात पर निर्भर करता है कि हम मिडजर्नी के त्वरित दिशानिर्देशों का उपयोग करके खुद को कितनी रचनात्मक रूप से अभिव्यक्त कर सकते हैं, नीचे दिए गए उदाहरण में मिडजर्नी को उत्पन्न करने के लिए दिए गए संकेत का उल्लेख है एक दृश्य के लिए एक छवि.
दृश्य का एक कार्टून जहां भारतीय वृद्ध हिंदू संत लॉर्ड क्लाउड से मदद मांग रहे हैं; भगवान मेघ साक्षात हैं और उनके चेहरे पर प्रसन्नता है, चारों ओर काले बादलों और बिजली की चमक के साथ चारों ओर का वातावरण पेड़ों से भरा है
यदि आपको छवि में एनीमेशन जोड़ने की आवश्यकता है तो आप चरित्र गति और दृश्य एनीमेशन जोड़ने के लिए DiD या RunwayML का उपयोग कर सकते हैं।
इस चरण में, आप ग्यारह प्रयोगशालाओं का उपयोग करके कथन के लिए एआई आवाज उत्पन्न कर सकते हैं, आम तौर पर, ये टेक्स्ट टू स्पीच वर्णन मॉडल हैं जिनके पीछे का उपयोग थोड़ा रोबोटिक लग सकता है लेकिन आवाज उत्पन्न करने के उद्देश्य को हल कर सकता है, कोई इसे अधिक अभिव्यंजक और यथार्थवादी बना सकता है ग्यारह प्रयोगशालाओं से भुगतान किए गए संस्करण में, इस कहानी के लिए मुझे हिंदी वॉयस नैरेशन की आवश्यकता थी जिसके लिए Ai4भारत टेक्स्ट टू स्पीच नैरेशन बहुत अच्छा काम करता है।
यह वीडियो संपादक में छवियों को जोड़ने और दृश्य और कथन समयरेखा के अनुसार आवाज को सिंक करने का अंतिम और सरल कदम है, कैनवा और एडोब एक्सप्रेस जैसे उपकरण यहां बहुत अच्छा काम करते हैं।
ऊपर सबसे सरल विवरण दिया गया है कि आप कुछ बुनियादी टूल का उपयोग करके टेक्स्ट से वीडियो कैसे जल्दी से तैयार कर सकते हैं, मेरे उदाहरण के लिए, मैंने 16 अद्वितीय दृश्यों के साथ लगभग ~ 3 मिनट का वीडियो तैयार किया, यह देखना दिलचस्प होगा कि मैंने कितना समय और पैसा चुकाया यह वीडियो बनाएं:
मध्य यात्रा लागत ~ $0.05/छवि - 16*0.05 = $0.8
रनवेएमएल ~ $0.02/छवि - 16*0.02 = 0.32
कैनवा ~ नि:शुल्क है क्योंकि उन्होंने अपनी प्रीमियम कलाकृतियों का उपयोग नहीं किया है
कुल लागत ~$1/वीडियो
इसकी तुलना फ्लिकी जैसे नए जमाने के एआई वीडियो संपादकों से करें, जो 180 मिनट के निर्माण के लिए लगभग $28/माह का शुल्क लेते हैं, जिसकी लागत ऊपर उल्लिखित वीडियो लंबाई के लिए ~ $0.5 होगी।
यद्यपि एआई-आधारित वीडियो संपादकों में वीडियो बनाने की अंतिम लागत मिडजर्नी, रनवेएमएल इत्यादि जैसे टूल का उपयोग करके की गई कुल लागत की तुलना में कम लगती है, अतिरिक्त लागत के साथ ये टूल वीडियो सामग्री निर्माता को लचीलापन और रचनात्मकता प्रदान करते हैं और मदद कर सकते हैं कुछ अद्भुत वीडियो तैयार करने में जिनकी तुलना हॉलीवुड फिल्म के एक अद्भुत दृश्य से की जा सकती है, ऐसा लगता है कि अगर इन एआई उपकरणों को वीडियो एजेंसी या वीडियो प्रोडक्शन हाउस के वर्कफ़्लो के साथ बंडल और एकीकृत किया जा सकता है तो वे वीडियो उत्पादन में अधिकतम मूल्य उत्पन्न कर सकते हैं, जैसा कि जस्टिन ने कहा है इस थ्रेड में पार्टनर @a16z मूर भी यही दर्शाते हैं।