paint-brush
टेक्स्ट-टू-वीडियो जेनरेशन के लिए एआई स्टैकद्वारा@ratikeshmisra
2,210 रीडिंग
2,210 रीडिंग

टेक्स्ट-टू-वीडियो जेनरेशन के लिए एआई स्टैक

द्वारा Ratikesh4m2024/01/17
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

AI टूल का उपयोग करके वीडियो सामग्री बनाना न केवल आसान और तेज़ हो गया है बल्कि रचनात्मक भी हो गया है। इस पोस्ट में, हम सीखते हैं कि हम एब्स्ट्रैक्शन लेयर में टूल का उपयोग करके टेक्स्ट-टू-वीडियो उत्पन्न करने के लिए एक पाइपलाइन कैसे बना सकते हैं।
featured image - टेक्स्ट-टू-वीडियो जेनरेशन के लिए एआई स्टैक
Ratikesh HackerNoon profile picture
0-item
1-item

हाल के दिनों में बड़े भाषा मॉडलों की उत्पत्ति के साथ, एक बात जिस पर हम गंभीर रूप से बहस करते हैं वह यह है कि क्या AI-जनित सामग्री जैसे AI कला, AI वीडियो आदि सामग्री निर्माताओं की रचनात्मकता को नष्ट कर देगी या गुणवत्ता बढ़ा सकती है और उनकी सहायता कर सकती है। अपने पिछले ब्लॉग में, मैंने इस बारे में बात की थी कि एआई कोड-जनरेशन टूल सॉफ्टवेयर विकास चक्र में मूल्य जोड़ने में कैसे मदद कर सकते हैं, इस पोस्ट में मैं मुख्य रूप से इस बात पर प्रकाश डालूंगा कि कैसे एआई टूल का उपयोग करके वीडियो सामग्री बनाना न केवल आसान और तेज़ हो रहा है बल्कि रचनात्मक भी हो रहा है। .


यह समझने से पहले कि कोई रचनात्मक और आकर्षक सामग्री तैयार करने में वर्तमान वीडियो और छवि मॉडल का लाभ कैसे उठा सकता है, यह समझना महत्वपूर्ण है कि वर्तमान स्थिति कैसी दिखती है, हम वर्तमान एआई वीडियो पीढ़ी परिदृश्य को नीचे के रूप में परत कर सकते हैं:

एआई वीडियो जेनरेशन में परतें

  1. मौजूदा वीडियो संपादक Adobe, Canva आदि जैसे AI को अपने वर्कफ़्लो में एकीकृत करने का प्रयास कर रहे हैं।

  2. AI-आधारित नए जमाने के वीडियो संपादन उपकरण जैसे Fliki.ai, unscreen.com, synthesia.ai, Hourone.ai, आदि।

  3. वीडियो जनरेशन वर्कफ़्लो में एकल उपयोग के मामले के लिए समर्पित अमूर्त परत , उदाहरण के लिए मिडजॉर्नी वीडियो के लिए यथार्थवादी छवियां बनाने में मदद करती है, रनवेएमएल छवि को वीडियो या छवि को छवि में बदलने के लिए एक मंच प्रदान करता है, डिड छवि में एनीमेशन जोड़ने में मदद करता है, इत्यादि।

  4. मॉडल परत जो संपूर्ण परिदृश्य का आधार बनाती है, सॉफ़्टवेयर टीमें अपने उपयोग के मामलों को अनुकूलित करने के लिए इस परत का लाभ उठा सकती हैं।


जैसे-जैसे हम कस्टमाइज़ करने के लिए परत के लचीलेपन में ऊपर जाते हैं, जबकि उपयोग में आसानी बढ़ती है, इस लेख के संदर्भ में हम यह समझने के लिए गहराई से गोता लगाएंगे कि हम रचनात्मक वीडियो बनाने में एब्स्ट्रैक्शन परत का उपयोग कैसे कर सकते हैं क्योंकि यह परत लचीलेपन के बीच में आती है और उपयोग में आसानी, और एक कलाकार के रूप में व्यक्ति को दोनों दुनियाओं के सर्वश्रेष्ठ की आवश्यकता होती है।

टेक्स्ट-टू-वीडियो पाइपलाइन का निर्माण

इससे पहले कि हम सीखें कि हम अमूर्त परत में टूल का उपयोग करके टेक्स्ट-टू-वीडियो उत्पन्न करने के लिए एक पाइपलाइन कैसे बना सकते हैं, यह तय करना महत्वपूर्ण है कि वीडियो उत्पन्न करने के लिए चरण क्या होंगे और प्रत्येक परत में कौन से टूल का उपयोग किया जा सकता है।



एआई वीडियो जनरेशन वर्कफ़्लो



AI टेक्स्ट-टू-वीडियो जेनरेशन में निम्नलिखित चरण शामिल हैं:

1. GPT संकेतों का उपयोग करके स्क्रिप्ट से दृश्य उत्पन्न करना


मैंने जो पहला कदम उठाया, वह जीपीटी को प्रत्येक दृश्य में शामिल पात्रों के बीच संवादों के रूप में हिंदी स्क्रिप्ट देने के लिए प्रेरित करना था।


इनपुट

इनपुट


उत्पादन


उत्पादन


2. दृश्यों से छवियाँ उत्पन्न करना

यह महत्वपूर्ण कदम है और इसमें उस दृश्य के लिए चित्र बनाना शामिल है जिसे स्क्रिप्ट से तोड़ दिया गया था, यह सब इस बात पर निर्भर करता है कि हम मिडजर्नी के त्वरित दिशानिर्देशों का उपयोग करके खुद को कितनी रचनात्मक रूप से अभिव्यक्त कर सकते हैं, नीचे दिए गए उदाहरण में मिडजर्नी को उत्पन्न करने के लिए दिए गए संकेत का उल्लेख है एक दृश्य के लिए एक छवि.



दृश्य का एक कार्टून जहां भारतीय वृद्ध हिंदू संत लॉर्ड क्लाउड से मदद मांग रहे हैं; भगवान मेघ साक्षात हैं और उनके चेहरे पर प्रसन्नता है, चारों ओर काले बादलों और बिजली की चमक के साथ चारों ओर का वातावरण पेड़ों से भरा है


छवियाँ उत्पन्न करना


3. छवि में एनीमेशन जोड़ना

यदि आपको छवि में एनीमेशन जोड़ने की आवश्यकता है तो आप चरित्र गति और दृश्य एनीमेशन जोड़ने के लिए DiD या RunwayML का उपयोग कर सकते हैं।

4. दृश्य वर्णन के लिए एआई आवाज उत्पन्न करना

इस चरण में, आप ग्यारह प्रयोगशालाओं का उपयोग करके कथन के लिए एआई आवाज उत्पन्न कर सकते हैं, आम तौर पर, ये टेक्स्ट टू स्पीच वर्णन मॉडल हैं जिनके पीछे का उपयोग थोड़ा रोबोटिक लग सकता है लेकिन आवाज उत्पन्न करने के उद्देश्य को हल कर सकता है, कोई इसे अधिक अभिव्यंजक और यथार्थवादी बना सकता है ग्यारह प्रयोगशालाओं से भुगतान किए गए संस्करण में, इस कहानी के लिए मुझे हिंदी वॉयस नैरेशन की आवश्यकता थी जिसके लिए Ai4भारत टेक्स्ट टू स्पीच नैरेशन बहुत अच्छा काम करता है।

5. वीडियो क्लिप सिलना और आवाज को सिंक करना

यह वीडियो संपादक में छवियों को जोड़ने और दृश्य और कथन समयरेखा के अनुसार आवाज को सिंक करने का अंतिम और सरल कदम है, कैनवा और एडोब एक्सप्रेस जैसे उपकरण यहां बहुत अच्छा काम करते हैं।

वीडियो निर्माण की अनुमानित लागत

ऊपर सबसे सरल विवरण दिया गया है कि आप कुछ बुनियादी टूल का उपयोग करके टेक्स्ट से वीडियो कैसे जल्दी से तैयार कर सकते हैं, मेरे उदाहरण के लिए, मैंने 16 अद्वितीय दृश्यों के साथ लगभग ~ 3 मिनट का वीडियो तैयार किया, यह देखना दिलचस्प होगा कि मैंने कितना समय और पैसा चुकाया यह वीडियो बनाएं:


मध्य यात्रा लागत ~ $0.05/छवि - 16*0.05 = $0.8

रनवेएमएल ~ $0.02/छवि - 16*0.02 = 0.32

कैनवा ~ नि:शुल्क है क्योंकि उन्होंने अपनी प्रीमियम कलाकृतियों का उपयोग नहीं किया है

कुल लागत ~$1/वीडियो


इसकी तुलना फ्लिकी जैसे नए जमाने के एआई वीडियो संपादकों से करें, जो 180 मिनट के निर्माण के लिए लगभग $28/माह का शुल्क लेते हैं, जिसकी लागत ऊपर उल्लिखित वीडियो लंबाई के लिए ~ $0.5 होगी।

प्रसाद को बंडल करने की आवश्यकता है

यद्यपि एआई-आधारित वीडियो संपादकों में वीडियो बनाने की अंतिम लागत मिडजर्नी, रनवेएमएल इत्यादि जैसे टूल का उपयोग करके की गई कुल लागत की तुलना में कम लगती है, अतिरिक्त लागत के साथ ये टूल वीडियो सामग्री निर्माता को लचीलापन और रचनात्मकता प्रदान करते हैं और मदद कर सकते हैं कुछ अद्भुत वीडियो तैयार करने में जिनकी तुलना हॉलीवुड फिल्म के एक अद्भुत दृश्य से की जा सकती है, ऐसा लगता है कि अगर इन एआई उपकरणों को वीडियो एजेंसी या वीडियो प्रोडक्शन हाउस के वर्कफ़्लो के साथ बंडल और एकीकृत किया जा सकता है तो वे वीडियो उत्पादन में अधिकतम मूल्य उत्पन्न कर सकते हैं, जैसा कि जस्टिन ने कहा है इस थ्रेड में पार्टनर @a16z मूर भी यही दर्शाते हैं।




जस्टिन मूर