paint-brush
Google ने अपना अब तक का सबसे आशाजनक टेक्स्ट-टू-वीडियो मॉडल लॉन्च किया: लुमिएरेद्वारा@aibites
1,353 रीडिंग
1,353 रीडिंग

Google ने अपना अब तक का सबसे आशाजनक टेक्स्ट-टू-वीडियो मॉडल लॉन्च किया: लुमिएरे

द्वारा Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

क्या आप मोना लिसा को डायन की तरह मुस्कुराते हुए देखना चाहेंगे? या क्या आप चाहेंगे कि मोती की बाली वाली लड़की आंख मारे और मुस्कुराए? Google ने हाल ही में Lumiere [1] नामक एक वीडियो जेनरेशन मॉडल लॉन्च किया है जो आपके लिए यह सब करने में सक्षम है। हालाँकि यह मुख्य रूप से एक टेक्स्ट-टू-वीडियो मॉडल है, यह उससे कहीं अधिक करने में सक्षम है। एक संकेत के साथ एक संदर्भ छवि दी गई है, यह आपके वीडियो में संदर्भ छवि की शैली की प्रतिलिपि बनाकर आपके वीडियो को स्टाइल कर सकता है।
featured image - Google ने अपना अब तक का सबसे आशाजनक टेक्स्ट-टू-वीडियो मॉडल लॉन्च किया: लुमिएरे
Shrinivasan Sankar HackerNoon profile picture

परिचय

क्या आप मोना लिसा को डायन की तरह मुस्कुराते हुए देखना चाहेंगे? या क्या आप चाहेंगे कि मोती की बाली वाली लड़की आंख मारे और मुस्कुराए? Google ने हाल ही में Lumiere [1] नामक एक वीडियो जेनरेशन मॉडल लॉन्च किया है जो आपके लिए यह सब करने में सक्षम है।


हालाँकि यह मुख्य रूप से एक टेक्स्ट-टू-वीडियो मॉडल है, यह उससे कहीं अधिक करने में सक्षम है। एक संकेत के साथ एक संदर्भ छवि दी गई है, यह आपके वीडियो में संदर्भ छवि की शैली की प्रतिलिपि बनाकर आपके वीडियो को स्टाइल कर सकता है।


आप केवल एक संकेत से अपने वीडियो संपादित भी कर सकते हैं। मॉडल लुमियायर है। यह एक छवि में उपयोगकर्ता द्वारा निर्दिष्ट क्षेत्र के भीतर वस्तुओं को एनिमेट करने में भी सक्षम है, एक तकनीक जिसे सिनेमोग्राफ कहा जाता है।


जब इनपेंटिंग की बात आती है, तो लुमिएरे इस उदाहरण में केक जैसी पूरी तरह से गायब वस्तु के बारे में भी तर्क करने में सक्षम है।


यह सब एक नवीन स्पेस-टाइम यू-नेट आर्किटेक्चर [3] के साथ एक प्रसार मॉडल में तब्दील हो जाता है। यह अस्थायी स्थिरता की समस्या को हल करने के लिए यू-नेट आर्किटेक्चर का एक अनुकूलन है जो वीडियो पीढ़ी मॉडल में काफी प्रचलित है।

दृश्य स्पष्टीकरण

ल्यूमियर पेपर, मॉडल वास्तुकला और परिणामों का एक दृश्य स्पष्टीकरण उपलब्ध है।

तो, अस्थायी संगति क्या है?

हम सभी जानते हैं कि वीडियो छवियों का एक क्रम है। तो, आइए उपरोक्त चित्र में शीर्ष पंक्ति में दिखाई गई छवियों का एक क्रम लें। यदि हम छवि में केवल एक पंक्ति को सीमित करते हैं, जो बाएं से दाएं जाने वाली हरी रेखा द्वारा इंगित की जाती है, तो हमें अनुक्रम में छवियों के बीच पिक्सेल मानों में एक सहज संक्रमण देखने की आवश्यकता है।


यदि संक्रमण सुचारू है, तो जब हम वीडियो देख रहे होंगे तो हमें जंपिंग प्रभाव नहीं दिखेगा।


उदाहरण के लिए, यदि हम स्टेबल वीडियो डिफ्यूजन [2] लेते हैं, और चंद्रमा पर (ऊपर) चलते हुए एक अंतरिक्ष यात्री का वीडियो देखते हैं, तो हम देख सकते हैं कि उसके हाथ फ्रेम के बीच गायब हो जाते हैं। दूसरे शब्दों में, फ़्रेमों के बीच अस्थायी स्थिरता का अभाव है।


समय और एक्स दिशा में तीव्रता के बीच इस तरह की अस्थायी असंगतता को एक्सटी स्लाइस के रूप में प्लॉट किया जा सकता है जैसा कि ऊपर दिए गए चित्र में दिखाया गया है। और यदि अस्थायी असंगतता है, तो इसे एक्सटी स्लाइस के प्लॉट में हाइलाइट किया गया है।


लुमियरे एक स्पेस-टाइम डिफ्यूजन मॉडल और डिफ्यूजन मॉडल में मौजूद एक संशोधित यू-नेट आर्किटेक्चर को पेश करके इस समस्या का समाधान करता है।

टेक्स्ट से वीडियो की पाइपलाइन

विवरणों पर गौर करने से पहले, आइए टेक्स्ट-टू-वीडियो जेनरेशन मॉडल की विशिष्ट पाइपलाइन से शुरुआत करें।

ये पाइपलाइन इनपुट वीडियो अनुक्रम से कीफ़्रेम के रूप में हर 5वें फ़्रेम का नमूना लेती हैं और एक बेस मॉडल को प्रशिक्षित करती हैं जो इन कीफ़्रेम को केवल 3 फ़्रेम प्रति सेकंड पर 128 गुणा 128 के न्यूनतम रिज़ॉल्यूशन पर उत्पन्न कर सकता है।


फिर टेम्पोरल सुपर रेजोल्यूशन का उपयोग मध्यवर्ती फ्रेम की भविष्यवाणी करके फ्रेम दर को बढ़ाने के लिए किया जाता है। तो फ्रेम दर अब 16 फ्रेम प्रति सेकंड हो गई है।


फिर इन फ़्रेमों के स्थानिक रिज़ॉल्यूशन को एक स्थानिक सुपररिज़ॉल्यूशन नेटवर्क (एसएसआर) द्वारा 1024 गुणा 1024 तक बढ़ा दिया जाता है, जो अंततः हमारे उत्पन्न वीडियो की ओर ले जाता है।


इस ढांचे में उपयोग किया जाने वाला बेस मॉडल आमतौर पर एक प्रसार मॉडल होता है जिसके अंदर एक यू-नेट होता है।

लुमियरे की प्रस्तावित पाइपलाइन

दूसरी ओर ल्यूमियर की प्रस्तावित पाइपलाइन सभी फ्रेमों को बिना फ्रेम गिराए एक ही बार में संसाधित करती है। सभी फ़्रेमों को संसाधित करने की कम्प्यूटेशनल लागत से निपटने के लिए, बेस डिफ्यूजन मॉडल के आर्किटेक्चर को स्पेस-टाइम यूनेट आर्किटेक्चर या STUNet के साथ आने के लिए संशोधित किया गया है।


चूँकि STUNet सभी इनपुट फ़्रेमों से निपटता है, टेम्पोरल सुपर रिज़ॉल्यूशन या TSR की आवश्यकता समाप्त हो जाती है। तो, पाइपलाइन में अभी भी स्थानिक सुपर-रिज़ॉल्यूशन या एसएसआर है। लेकिन नवीनता मल्टीडिफ्यूजन की शुरूआत है।

यू-नेट से लेकर स्टुनेट तक

आइए स्पेस-टाइम यू-नेट पर गौर करने से पहले यू-नेट की त्वरित समीक्षा करें। यू-नेट का इनपुट चौड़ाई डब्ल्यू, ऊंचाई एच और चैनल आरजीबी के साथ एक 3 आयामी छवि है। यू-नेट के प्रत्येक दोहरे कनवल्शन चरण के बाद, हम डाउनसैंपल के लिए अधिकतम पूलिंग लागू करते हैं या सुविधाओं के स्थानिक आयाम को कम करते हैं। यह स्थानिक आयाम कमी चरण लाल तीरों द्वारा दर्शाया गया है।


इसी तरह, डिकोडर चरण के दौरान, रिज़ॉल्यूशन को इनपुट के आकार में बढ़ाने या अपसैंपल करने के लिए अप कन्वोल्यूशन होते हैं।

जब वीडियो की बात आती है, तो हमारे पास इनपुट में एक अतिरिक्त आयाम होता है जो समय है। इसलिए स्पेस-टाइम यू-नेट न केवल स्थानिक आयाम में बल्कि समय टी के आयाम में भी वीडियो को डाउनसैंपल और अप-सैंपल करने का प्रस्ताव करता है। यह अस्थायी आकार बदलने का मुख्य विचार है और इस लुमियर पेपर का मुख्य योगदान है।


आकार बदलने के लिए, वे 2डी पूलिंग के बजाय 3डी पूलिंग का उपयोग करते हैं क्योंकि इनपुट में अब एक अतिरिक्त आयाम है।


मेरी तरह, आप भी इस विचार की सरलता से आश्चर्यचकित हो सकते हैं। लेखकों ने स्वयं पेपर में उल्लेख किया है:

आश्चर्यजनक रूप से, इस डिज़ाइन विकल्प को पिछले T2V मॉडल द्वारा अनदेखा कर दिया गया है, जो आर्किटेक्चर में केवल स्थानिक डाउन और अप-सैंपलिंग संचालन को शामिल करने और पूरे नेटवर्क में एक निश्चित अस्थायी रिज़ॉल्यूशन बनाए रखने की परंपरा का पालन करता है।

कार्यान्वयन

आइए कार्यान्वयन की कुछ बारीकियों पर गौर करें। वे वीडियो डिफ्यूजन मॉडल्स नामक इस पेपर में पेश किए गए फैक्टराइज्ड कन्वोल्यूशन का उपयोग करते हैं। विचार प्रत्येक 2D कनवल्शन को केवल-स्थान वाले 3D कनवल्शन में बदलने का है, उदाहरण के लिए, प्रत्येक 3x3 कनवल्शन को 1x3x3 कनवल्शन में बदलकर।


ध्यान के लिए, प्रत्येक स्थानिक ध्यान ब्लॉक के बाद, हम एक अस्थायी ध्यान ब्लॉक डालते हैं जो पहले अक्ष पर ध्यान केंद्रित करता है और स्थानिक अक्षों को बैच अक्ष के रूप में मानता है।

उन दो परिवर्तनों के साथ, फैक्टराइज्ड कनवल्शन ब्लॉक को पूर्व-प्रशिक्षित मॉडल में जोड़ा जाता है, और केवल अतिरिक्त परतों को पूर्व-प्रशिक्षित परत भार के साथ प्रशिक्षित किया जाता है।


पेपर की दूसरी नवीनता स्थानिक सुपररिज़ॉल्यूशन के दौरान शुरू की गई मल्टीडिफ्यूजन है। यदि आप ल्यूमियर से पहले वीडियो जेनरेशन मॉडल लेते हैं, तो स्थानिक सुपररिज़ॉल्यूशन मॉडल फ़्रेम का अनुक्रम लेता है।


हालाँकि, अनुक्रम ओवरलैप नहीं हो रहे थे। उदाहरण के लिए, एसएसआर मॉड्यूल द्वारा इनपुट के रूप में लिए गए पहले 8 फ्रेम और अगले 8 फ्रेम बिना किसी ओवरलैप के अलग-अलग हैं।


लेकिन जब ल्यूमियर की बात आती है, तो पहले 8 फ्रेम और दूसरे 8 फ्रेम में दो फ्रेम का ओवरलैप होता है। ऐसा करने से, स्थानिक सुपर-रिज़ॉल्यूशन मॉडल अस्थायी खंडों के बीच सहज संक्रमण प्राप्त करता प्रतीत होता है। इसे ही पेपर में मल्टीडिफ्यूजन कहा गया है।

अनुप्रयोग

कैस्केड डिफ्यूजन मॉडल आर्किटेक्चर की अनुपस्थिति के साथ दो प्रस्तावित तकनीकों को युग्मित करना, जो कि इमेजन वीडियो जैसे पूर्व आर्किटेक्चर में प्रचलित है, काफी विविध अनुप्रयोगों की ओर ले जाता है।


उदाहरण के लिए:

  • मॉडल टेक्स्ट को ऐसे संकेतों के साथ वीडियो में परिवर्तित कर सकता है जैसे "मंगल ग्रह पर चलने वाला एक अंतरिक्ष यात्री अपने आधार के चारों ओर चक्कर लगा रहा है" या "एक कुत्ता अजीब धूप का चश्मा पहने हुए कार चला रहा है।"


  • यह "एक लड़की आंख मारती और मुस्कुराती हुई" जैसे टेक्स्ट प्रॉम्प्ट के साथ छवियों को वीडियो में बदल सकती है।


  • यह एक संदर्भ छवि और "नाचता हुआ भालू" जैसे टेक्स्ट प्रॉम्प्ट के साथ पीढ़ी को शैलीबद्ध कर सकता है। सिनेमैग्राफ की बात करें तो यह उपयोगकर्ता द्वारा चुने गए क्षेत्रों जैसे आग या भाप को चेतन कर सकता है।


  • यह उन पोशाकों को भी संपादित कर सकता है जिन्हें लोग केवल एक संकेत के साथ पहन रहे हैं।

मूल्यांकन

मॉडल का मात्रात्मक मूल्यांकन करने के लिए, मॉडल को एक उपयोगकर्ता अध्ययन के माध्यम से चलाया गया था जहां उपयोगकर्ताओं ने प्रस्तावित मॉडल के परिणामों की तुलना कुछ अत्याधुनिक मॉडल जैसे पिका, जीरोस्कोप या स्थिर वीडियो प्रसार के साथ की थी। नतीजे बताते हैं कि उपयोगकर्ताओं ने टेक्स्ट से वीडियो और छवि से वीडियो दोनों के मामले में लुमियर मॉडल को प्राथमिकता दी।

निष्कर्ष

तो, निष्कर्ष निकालने के लिए, मुस्कुराते हुए मोनालिसा जैसे सभी प्रचार वीडियो स्टंट के अलावा, इस पेपर का योगदान काफी सरल है। एक पंक्ति में कहें तो, पेपर टेम्पोरल चैनल का डाउनसैंपलिंग प्रस्तुत करता है।


यह मल्टीडिफ्यूजन के साथ मिलकर, जो सुपररिज़ॉल्यूशन मॉडल में ओवरलैप किए गए फ़्रेमों के अलावा और कुछ नहीं है, उच्च-निष्ठा वाले वीडियो उत्पन्न करता है जो अस्थायी रूप से सुसंगत होते हैं।


मैं यह देखना पसंद करूंगा कि पेपर में कुछ एब्लेशन अध्ययन मल्टीडिफ्यूजन प्रक्रिया के साथ और उसके बिना परिणाम दिखा रहे हैं।


यह हमें इस लेख के अंत तक लाता है। अगली बार जब कोई आपसे लुमिएरे के बारे में बात करेगा, तो आपको पता होगा कि एक पंक्ति में क्या कहना है। मुझे आशा है कि इससे ल्यूमियर मॉडल के बारे में कुछ जानकारी मिली होगी।


मैं आपसे अगली बार मिलूंगा, तब तक अपना ख्याल रखें...

संदर्भ

[1] ओमर बार-ताल, हिला शेफर, ओमर टोव, चार्ल्स हेरमैन, रोनी पेस, शिरन ज़ादा, एरियल एफ़्रेट, जुन्हवा हूर, युआनज़ेन ली, तोमर माइकली, ओलिवर वांग, डेकिंग सन, ताली डेकेल, इनबार मोसेरी, वीडियो निर्माण के लिए एक अंतरिक्ष-समय प्रसार मॉडल (2024), arXiv प्रीप्रिंट।


[2] एंड्रियास ब्लैटमैन, टिम डॉकहॉर्न, सुमिथ कुलल, डेनियल मेंडेलेविच, मासीज किलियन, डोमिनिक लोरेंज, याम लेवी, सिय्योन इंग्लिश, विक्रम वोलेटी, एडम लेट्स, वरुण जंपानी, रॉबिन रोम्बाच, स्थिर वीडियो प्रसार: अव्यक्त वीडियो प्रसार मॉडल को बड़े डेटासेट में स्केल करना (2023), arXiv प्रीप्रिंट।


[3] ओलाफ रोनेबर्गर, फिलिप फिशर और थॉमस ब्रोक्स, यू-नेट: बायोमेडिकल इमेज सेगमेंटेशन के लिए कन्वेन्शनल नेटवर्क (2015), मेडिकल इमेज कंप्यूटिंग और कंप्यूटर-असिस्टेड इंटरवेंशन पर अंतर्राष्ट्रीय सम्मेलन।


यहाँ भी प्रकाशित किया गया