क्या आप मोना लिसा को डायन की तरह मुस्कुराते हुए देखना चाहेंगे? या क्या आप चाहेंगे कि मोती की बाली वाली लड़की आंख मारे और मुस्कुराए? Google ने हाल ही में Lumiere [1] नामक एक वीडियो जेनरेशन मॉडल लॉन्च किया है जो आपके लिए यह सब करने में सक्षम है।
हालाँकि यह मुख्य रूप से एक टेक्स्ट-टू-वीडियो मॉडल है, यह उससे कहीं अधिक करने में सक्षम है। एक संकेत के साथ एक संदर्भ छवि दी गई है, यह आपके वीडियो में संदर्भ छवि की शैली की प्रतिलिपि बनाकर आपके वीडियो को स्टाइल कर सकता है।
आप केवल एक संकेत से अपने वीडियो संपादित भी कर सकते हैं। मॉडल लुमियायर है। यह एक छवि में उपयोगकर्ता द्वारा निर्दिष्ट क्षेत्र के भीतर वस्तुओं को एनिमेट करने में भी सक्षम है, एक तकनीक जिसे सिनेमोग्राफ कहा जाता है।
जब इनपेंटिंग की बात आती है, तो लुमिएरे इस उदाहरण में केक जैसी पूरी तरह से गायब वस्तु के बारे में भी तर्क करने में सक्षम है।
यह सब एक नवीन स्पेस-टाइम यू-नेट आर्किटेक्चर [3] के साथ एक प्रसार मॉडल में तब्दील हो जाता है। यह अस्थायी स्थिरता की समस्या को हल करने के लिए यू-नेट आर्किटेक्चर का एक अनुकूलन है जो वीडियो पीढ़ी मॉडल में काफी प्रचलित है।
ल्यूमियर पेपर, मॉडल वास्तुकला और परिणामों का एक दृश्य स्पष्टीकरण उपलब्ध है।
हम सभी जानते हैं कि वीडियो छवियों का एक क्रम है। तो, आइए उपरोक्त चित्र में शीर्ष पंक्ति में दिखाई गई छवियों का एक क्रम लें। यदि हम छवि में केवल एक पंक्ति को सीमित करते हैं, जो बाएं से दाएं जाने वाली हरी रेखा द्वारा इंगित की जाती है, तो हमें अनुक्रम में छवियों के बीच पिक्सेल मानों में एक सहज संक्रमण देखने की आवश्यकता है।
यदि संक्रमण सुचारू है, तो जब हम वीडियो देख रहे होंगे तो हमें जंपिंग प्रभाव नहीं दिखेगा।
उदाहरण के लिए, यदि हम स्टेबल वीडियो डिफ्यूजन [2] लेते हैं, और चंद्रमा पर (ऊपर) चलते हुए एक अंतरिक्ष यात्री का वीडियो देखते हैं, तो हम देख सकते हैं कि उसके हाथ फ्रेम के बीच गायब हो जाते हैं। दूसरे शब्दों में, फ़्रेमों के बीच अस्थायी स्थिरता का अभाव है।
समय और एक्स दिशा में तीव्रता के बीच इस तरह की अस्थायी असंगतता को एक्सटी स्लाइस के रूप में प्लॉट किया जा सकता है जैसा कि ऊपर दिए गए चित्र में दिखाया गया है। और यदि अस्थायी असंगतता है, तो इसे एक्सटी स्लाइस के प्लॉट में हाइलाइट किया गया है।
लुमियरे एक स्पेस-टाइम डिफ्यूजन मॉडल और डिफ्यूजन मॉडल में मौजूद एक संशोधित यू-नेट आर्किटेक्चर को पेश करके इस समस्या का समाधान करता है।
विवरणों पर गौर करने से पहले, आइए टेक्स्ट-टू-वीडियो जेनरेशन मॉडल की विशिष्ट पाइपलाइन से शुरुआत करें।
ये पाइपलाइन इनपुट वीडियो अनुक्रम से कीफ़्रेम के रूप में हर 5वें फ़्रेम का नमूना लेती हैं और एक बेस मॉडल को प्रशिक्षित करती हैं जो इन कीफ़्रेम को केवल 3 फ़्रेम प्रति सेकंड पर 128 गुणा 128 के न्यूनतम रिज़ॉल्यूशन पर उत्पन्न कर सकता है।
फिर टेम्पोरल सुपर रेजोल्यूशन का उपयोग मध्यवर्ती फ्रेम की भविष्यवाणी करके फ्रेम दर को बढ़ाने के लिए किया जाता है। तो फ्रेम दर अब 16 फ्रेम प्रति सेकंड हो गई है।
फिर इन फ़्रेमों के स्थानिक रिज़ॉल्यूशन को एक स्थानिक सुपररिज़ॉल्यूशन नेटवर्क (एसएसआर) द्वारा 1024 गुणा 1024 तक बढ़ा दिया जाता है, जो अंततः हमारे उत्पन्न वीडियो की ओर ले जाता है।
इस ढांचे में उपयोग किया जाने वाला बेस मॉडल आमतौर पर एक प्रसार मॉडल होता है जिसके अंदर एक यू-नेट होता है।
दूसरी ओर ल्यूमियर की प्रस्तावित पाइपलाइन सभी फ्रेमों को बिना फ्रेम गिराए एक ही बार में संसाधित करती है। सभी फ़्रेमों को संसाधित करने की कम्प्यूटेशनल लागत से निपटने के लिए, बेस डिफ्यूजन मॉडल के आर्किटेक्चर को स्पेस-टाइम यूनेट आर्किटेक्चर या STUNet के साथ आने के लिए संशोधित किया गया है।
चूँकि STUNet सभी इनपुट फ़्रेमों से निपटता है, टेम्पोरल सुपर रिज़ॉल्यूशन या TSR की आवश्यकता समाप्त हो जाती है। तो, पाइपलाइन में अभी भी स्थानिक सुपर-रिज़ॉल्यूशन या एसएसआर है। लेकिन नवीनता मल्टीडिफ्यूजन की शुरूआत है।
आइए स्पेस-टाइम यू-नेट पर गौर करने से पहले यू-नेट की त्वरित समीक्षा करें। यू-नेट का इनपुट चौड़ाई डब्ल्यू, ऊंचाई एच और चैनल आरजीबी के साथ एक 3 आयामी छवि है। यू-नेट के प्रत्येक दोहरे कनवल्शन चरण के बाद, हम डाउनसैंपल के लिए अधिकतम पूलिंग लागू करते हैं या सुविधाओं के स्थानिक आयाम को कम करते हैं। यह स्थानिक आयाम कमी चरण लाल तीरों द्वारा दर्शाया गया है।
इसी तरह, डिकोडर चरण के दौरान, रिज़ॉल्यूशन को इनपुट के आकार में बढ़ाने या अपसैंपल करने के लिए अप कन्वोल्यूशन होते हैं।
जब वीडियो की बात आती है, तो हमारे पास इनपुट में एक अतिरिक्त आयाम होता है जो समय है। इसलिए स्पेस-टाइम यू-नेट न केवल स्थानिक आयाम में बल्कि समय टी के आयाम में भी वीडियो को डाउनसैंपल और अप-सैंपल करने का प्रस्ताव करता है। यह अस्थायी आकार बदलने का मुख्य विचार है और इस लुमियर पेपर का मुख्य योगदान है।
आकार बदलने के लिए, वे 2डी पूलिंग के बजाय 3डी पूलिंग का उपयोग करते हैं क्योंकि इनपुट में अब एक अतिरिक्त आयाम है।
मेरी तरह, आप भी इस विचार की सरलता से आश्चर्यचकित हो सकते हैं। लेखकों ने स्वयं पेपर में उल्लेख किया है:
आश्चर्यजनक रूप से, इस डिज़ाइन विकल्प को पिछले T2V मॉडल द्वारा अनदेखा कर दिया गया है, जो आर्किटेक्चर में केवल स्थानिक डाउन और अप-सैंपलिंग संचालन को शामिल करने और पूरे नेटवर्क में एक निश्चित अस्थायी रिज़ॉल्यूशन बनाए रखने की परंपरा का पालन करता है।
आइए कार्यान्वयन की कुछ बारीकियों पर गौर करें। वे वीडियो डिफ्यूजन मॉडल्स नामक इस पेपर में पेश किए गए फैक्टराइज्ड कन्वोल्यूशन का उपयोग करते हैं। विचार प्रत्येक 2D कनवल्शन को केवल-स्थान वाले 3D कनवल्शन में बदलने का है, उदाहरण के लिए, प्रत्येक 3x3 कनवल्शन को 1x3x3 कनवल्शन में बदलकर।
ध्यान के लिए, प्रत्येक स्थानिक ध्यान ब्लॉक के बाद, हम एक अस्थायी ध्यान ब्लॉक डालते हैं जो पहले अक्ष पर ध्यान केंद्रित करता है और स्थानिक अक्षों को बैच अक्ष के रूप में मानता है।
उन दो परिवर्तनों के साथ, फैक्टराइज्ड कनवल्शन ब्लॉक को पूर्व-प्रशिक्षित मॉडल में जोड़ा जाता है, और केवल अतिरिक्त परतों को पूर्व-प्रशिक्षित परत भार के साथ प्रशिक्षित किया जाता है।
पेपर की दूसरी नवीनता स्थानिक सुपररिज़ॉल्यूशन के दौरान शुरू की गई मल्टीडिफ्यूजन है। यदि आप ल्यूमियर से पहले वीडियो जेनरेशन मॉडल लेते हैं, तो स्थानिक सुपररिज़ॉल्यूशन मॉडल फ़्रेम का अनुक्रम लेता है।
हालाँकि, अनुक्रम ओवरलैप नहीं हो रहे थे। उदाहरण के लिए, एसएसआर मॉड्यूल द्वारा इनपुट के रूप में लिए गए पहले 8 फ्रेम और अगले 8 फ्रेम बिना किसी ओवरलैप के अलग-अलग हैं।
लेकिन जब ल्यूमियर की बात आती है, तो पहले 8 फ्रेम और दूसरे 8 फ्रेम में दो फ्रेम का ओवरलैप होता है। ऐसा करने से, स्थानिक सुपर-रिज़ॉल्यूशन मॉडल अस्थायी खंडों के बीच सहज संक्रमण प्राप्त करता प्रतीत होता है। इसे ही पेपर में मल्टीडिफ्यूजन कहा गया है।
कैस्केड डिफ्यूजन मॉडल आर्किटेक्चर की अनुपस्थिति के साथ दो प्रस्तावित तकनीकों को युग्मित करना, जो कि इमेजन वीडियो जैसे पूर्व आर्किटेक्चर में प्रचलित है, काफी विविध अनुप्रयोगों की ओर ले जाता है।
उदाहरण के लिए:
मॉडल का मात्रात्मक मूल्यांकन करने के लिए, मॉडल को एक उपयोगकर्ता अध्ययन के माध्यम से चलाया गया था जहां उपयोगकर्ताओं ने प्रस्तावित मॉडल के परिणामों की तुलना कुछ अत्याधुनिक मॉडल जैसे पिका, जीरोस्कोप या स्थिर वीडियो प्रसार के साथ की थी। नतीजे बताते हैं कि उपयोगकर्ताओं ने टेक्स्ट से वीडियो और छवि से वीडियो दोनों के मामले में लुमियर मॉडल को प्राथमिकता दी।
तो, निष्कर्ष निकालने के लिए, मुस्कुराते हुए मोनालिसा जैसे सभी प्रचार वीडियो स्टंट के अलावा, इस पेपर का योगदान काफी सरल है। एक पंक्ति में कहें तो, पेपर टेम्पोरल चैनल का डाउनसैंपलिंग प्रस्तुत करता है।
यह मल्टीडिफ्यूजन के साथ मिलकर, जो सुपररिज़ॉल्यूशन मॉडल में ओवरलैप किए गए फ़्रेमों के अलावा और कुछ नहीं है, उच्च-निष्ठा वाले वीडियो उत्पन्न करता है जो अस्थायी रूप से सुसंगत होते हैं।
मैं यह देखना पसंद करूंगा कि पेपर में कुछ एब्लेशन अध्ययन मल्टीडिफ्यूजन प्रक्रिया के साथ और उसके बिना परिणाम दिखा रहे हैं।
यह हमें इस लेख के अंत तक लाता है। अगली बार जब कोई आपसे लुमिएरे के बारे में बात करेगा, तो आपको पता होगा कि एक पंक्ति में क्या कहना है। मुझे आशा है कि इससे ल्यूमियर मॉडल के बारे में कुछ जानकारी मिली होगी।
मैं आपसे अगली बार मिलूंगा, तब तक अपना ख्याल रखें...
[1] ओमर बार-ताल, हिला शेफर, ओमर टोव, चार्ल्स हेरमैन, रोनी पेस, शिरन ज़ादा, एरियल एफ़्रेट, जुन्हवा हूर, युआनज़ेन ली, तोमर माइकली, ओलिवर वांग, डेकिंग सन, ताली डेकेल, इनबार मोसेरी,
[2] एंड्रियास ब्लैटमैन, टिम डॉकहॉर्न, सुमिथ कुलल, डेनियल मेंडेलेविच, मासीज किलियन, डोमिनिक लोरेंज, याम लेवी, सिय्योन इंग्लिश, विक्रम वोलेटी, एडम लेट्स, वरुण जंपानी, रॉबिन रोम्बाच,
[3] ओलाफ रोनेबर्गर, फिलिप फिशर और थॉमस ब्रोक्स,
यहाँ भी प्रकाशित किया गया