मेटा एआई का नया मॉडल मेक-ए-वीडियो आ गया है और एक ही वाक्य में: । यह न केवल वीडियो उत्पन्न करने में सक्षम है, बल्कि यह नई अत्याधुनिक विधि भी है, जो पहले से कहीं अधिक उच्च गुणवत्ता और अधिक सुसंगत वीडियो का उत्पादन करती है! यह टेक्स्ट से वीडियो बनाता है आप इस मॉडल को वीडियो के लिए एक स्थिर प्रसार मॉडल के रूप में देख सकते हैं। छवियों को उत्पन्न करने में सक्षम होने के बाद निश्चित रूप से अगला कदम। यह वह सारी जानकारी है जो आपने पहले ही किसी समाचार वेबसाइट पर या सिर्फ लेख के शीर्षक को पढ़कर देखी होगी, लेकिन जो आप अभी तक नहीं जानते हैं वह यह है कि यह वास्तव में क्या है और यह कैसे काम करता है। ऐसे... संदर्भ पूरा लेख पढ़ें: ► मेटा का ब्लॉग पोस्ट: सिंगर एट अल। (मेटा एआई), 2022, "मेक-ए-वीडियो: टेक्स्ट-टू-वीडियो जनरेशन विदाउट टेक्स्ट-वीडियो डेटा", ►मेक-ए-वीडियो (आधिकारिक पेज): पाइटोरच कार्यान्वयन: ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/make-a-video/ https://ai.facebook.com/blog/generative-ai-text-to-video/ https://makeavideo.studio/Make-A-Video.pdf https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4 https://github.com/lucidrains/make-a-video-pytorch https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 मेथियास की नई मॉडल मेक ए वीडियो आउट 0:03 और एक वाक्य में यह उत्पन्न करता है 0:05 पाठ से वीडियो यह करने में असमर्थ है 0:07 वीडियो जेनरेट करें लेकिन यह भी नया है 0:09 उच्च उत्पादन करने वाली अत्याधुनिक विधि 0:11 की तुलना में गुणवत्ता और अधिक सुसंगत वीडियो 0:14 कभी भी आप इस मॉडल को एक स्थिर के रूप में देख सकते हैं 0:16 वीडियो के लिए प्रसार मॉडल निश्चित रूप से 0:19 उत्पन्न करने में सक्षम होने के बाद अगला कदम 0:21 छवियां इस प्रकार आपको जानकारी होनी चाहिए 0:23 समाचार वेबसाइट पर पहले ही देख चुके हैं या 0:26 सिर्फ वीडियो का शीर्षक पढ़कर 0:28 लेकिन जो आप अभी तक नहीं जानते वह है क्या है 0:30 यह बिल्कुल सही है और यह कैसे काम करता है एक वीडियो बनाएं 0:33 Met . द्वारा नवीनतम प्रकाशन है 0:35 III और यह आपको a . उत्पन्न करने की अनुमति देता है 0:37 टेक्स्ट इनपुट से छोटा वीडियो बस 0:40 इस तरह आप जटिलता जोड़ रहे हैं 0:42 छवि निर्माण परीक्षण के लिए न केवल 0:45 के कई फ्रेम उत्पन्न करने के लिए 0:47 एक ही विषय और दृश्य लेकिन यह भी 0:49 समय में सुसंगत होना चाहिए जो आप नहीं कर सकते 0:51 डेली का उपयोग करके केवल 60 छवियां बनाएं 0:53 और एक वीडियो उत्पन्न करें यह बस दिखेगा 0:56 बुरा और कुछ भी वास्तविक नहीं है जिसकी आपको आवश्यकता है a 0:58 मॉडल जो दुनिया को समझता है a 1:00 बेहतर तरीका है और इस स्तर का लाभ उठाता है 1:02 एक सुसंगत उत्पन्न करने की समझ 1:04 छवियों की श्रृंखला जो अच्छी तरह मिश्रित होती हैं 1:06 साथ में आप मूल रूप से अनुकरण करना चाहते हैं 1:08 एक दुनिया और फिर की रिकॉर्डिंग का अनुकरण करें 1:11 यह लेकिन आप ऐसा कैसे कर सकते हैं आम तौर पर आप 1:14 करने के लिए पाठ वीडियो जोड़े के टन की आवश्यकता होगी 1:16 ऐसे वीडियो बनाने के लिए अपने मॉडल को प्रशिक्षित करें 1:18 टेक्स्ट इनपुट से लेकिन इस मामले में नहीं 1:21 चूंकि इस प्रकार का डेटा वास्तव में है 1:23 प्राप्त करना मुश्किल है और प्रशिक्षण की लागत 1:25 सुपर महंगे हैं वे इस से संपर्क करते हैं 1:27 समस्या अलग तरह से है 1:30 छवि मॉडल के लिए सबसे अच्छा टेक्स्ट लें और 1:32 इसे वीडियो के लिए अनुकूलित करें और यही मुझे मिला 1:35 एक शोध पत्र में उन्होंने किया था 1:38 उनके मामले में जारी किया गया टेक्स्ट टू इमेज 1:40 मॉडल मेटा द्वारा एक अन्य मॉडल है जिसे कहा जाता है 1:43 पत्रिका जिसे मैंने पिछले में कवर किया था 1:45 वीडियो यदि आप इसके बारे में अधिक जानना चाहते हैं 1:47 यह लेकिन आप इस तरह के एक मॉडल को कैसे अनुकूलित करते हैं 1:50 ध्यान में रखें कि आप एक जोड़ते हैं 1:53 आपके मॉडल के लिए स्थानिक अस्थायी पाइपलाइन 1:55 वीडियो संसाधित करने में सक्षम होने के लिए इसका मतलब है 1:58 कि मॉडल न केवल एक उत्पन्न करेगा 2:00 छवि लेकिन इस मामले में उनमें से 16 कम 2:03 एक लघु सुसंगत बनाने का संकल्प 2:06 एक पाठ के समान तरीके से वीडियो 2:08 छवि मॉडल लेकिन एक आयामी जोड़ना 2:11 कनवल्शन के साथ-साथ नियमित 2:13 द्वि-आयामी एक सरल जोड़ 2:15 उन्हें पूर्व-प्रशिक्षित रखने की अनुमति देता है 2:17 द्वि-आयामी संकल्प समान 2:19 और एक अस्थायी आयाम जोड़ें कि वे 2:22 अधिकांश का पुन: उपयोग करने से खरोंच से प्रशिक्षित होगा 2:25 से कोड और मॉडल पैरामीटर 2:27 छवि मॉडल उन्होंने हम से भी शुरू किया 2:30 पाठ के साथ हमारी पीढ़ियों का मार्गदर्शन करना चाहते हैं 2:32 इनपुट जो बहुत समान होगा 2:34 क्लिप एम्बेडिंग का उपयोग करके छवि मॉडल a 2:37 प्रक्रिया मैं अपने स्थिर में विस्तार से जाता हूं 2:39 प्रसार वीडियो यदि आप परिचित नहीं हैं 2:41 उनकी समस्या के साथ लेकिन वे भी होंगे 2:43 अस्थायी आयाम जोड़ना जब 2:45 के साथ पाठ सुविधाओं का सम्मिश्रण 2:47 छवि सुविधाएँ एक ही काम कर रही हैं 2:49 मेरे द्वारा वर्णित ध्यान मॉड्यूल को ध्यान में रखते हुए 2:52 मेरे में एक दृश्य वीडियो बनाएं और a . जोड़ें 2:55 एक आयामी ध्यान मॉड्यूल या 2:57 अस्थायी विचार कॉपी पेस्ट कर रहे हैं 3:00 छवि जनरेटर मॉडल और दोहराव 3:02 एक और के लिए पीढ़ी मॉड्यूल 3:04 हमारे सभी 16 प्रारंभिक होने का आयाम 3:07 फ्रेम लेकिन आप 16 . के साथ क्या कर सकते हैं 3:10 फ्रेम अच्छी तरह से वास्तव में कुछ भी दिलचस्प नहीं है 3:13 हमें एक हाई डेफिनिशन वीडियो बनाने की जरूरत है 3:16 उन फ़्रेमों में से मॉडल करेगा 3:19 कि पूर्वावलोकन तक पहुंच और 3:21 भविष्य के फ्रेम और पुनरावृति 3:23 के संदर्भ में उन दोनों से प्रक्षेपित करना 3:27 पर अस्थायी और स्थानिक आयाम 3:30 उसी समय मूल रूप से नया उत्पन्न करना 3:33 और उनके बीच में बड़े फ्रेम 3:35 फ्रेम के आधार पर शुरुआती 16 फ्रेम 3:38 उनके पहले और बाद में जो होगा 3:40 आंदोलन को सुसंगत बनाने के लिए मोहित 3:43 और कुल मिलाकर वीडियो को बर्बाद कर दिया गया है 3:45 फ्रेम इंटरपोलेशन नेटवर्क का उपयोग करना 3:47 जिसका वर्णन मैंने अन्य वीडियो में भी किया है 3:50 लेकिन मूल रूप से हम छवियों को लेंगे 3:52 में उत्पन्न होने वाले अंतरालों को भरना और भरना 3:54 जानकारी के बीच यह वही करेगा 3:57 एक स्थानिक घटक के विस्तार के लिए बात 3:59 छवि और पिक्सेल अंतराल को भरना 4:02 इसे और अधिक उच्च परिभाषा बनाएं 4:04 तो ठीक धुन एक पाठ को संक्षेप में प्रस्तुत करने के लिए 4:07 वीडियो पीढ़ी के लिए छवि मॉडल यह 4:09 इसका मतलब है कि वे पहले से ही एक शक्तिशाली मॉडल लेते हैं 4:12 प्रशिक्षित और अनुकूलित करें और इसे थोड़ा प्रशिक्षित करें 4:14 इस वीडियो के अभ्यस्त होने के लिए थोड़ा और 4:16 बिना लेबल के पुनर्प्रशिक्षण किया जाएगा 4:19 वीडियो सिर्फ मॉडल को सिखाने के लिए 4:21 वीडियो और वीडियो फ्रेम को समझें 4:23 संगति जो डेटा सेट बनाती है 4:25 निर्माण प्रक्रिया बहुत आसान है तो हम 4:27 एक बार फिर एक छवि अनुकूलित मॉडल का उपयोग करें 4:30 हमारे में स्थानिक संकल्प में सुधार करने के लिए 4:32 अंतिम फ्रेम प्रक्षेप घटक 4:35 वीडियो को तरल बनाने के लिए और फ्रेम जोड़ें 4:38 बेशक परिणाम अभी सही नहीं हैं 4:40 छवि मॉडल के लिए पाठ की तरह लेकिन हम 4:43 जानिए प्रगति कितनी तेजी से होती है यह थी 4:45 मैं कैसे मिला इसका सिर्फ एक सिंहावलोकन 4:47 वीडियो को टेक्स्ट से सफलतापूर्वक निपटाया 4:49 इस महान पेपर में कार्य सभी लिंक 4:52 नीचे विवरण में हैं यदि आप 4:53 उनके दृष्टिकोण के बारे में अधिक जानना पसंद करते हैं 4:55 pytorch कार्यान्वयन पर भी है 4:57 पहले से ही समुदाय द्वारा विकसित किया जा रहा है 4:59 साथ ही उसके लिए बने रहें यदि आप 5:02 इसे स्वयं लागू करना पसंद करते हैं धन्यवाद 5:04 पूरा वीडियो देखने के लिए और मैं 5:06 अगली बार मिलते हैं एक और अद्भुत के साथ 5:08 कागज़