मेटा एआई का नया मॉडल मेक-ए-वीडियो आ गया है और एक ही वाक्य में: यह टेक्स्ट से वीडियो बनाता है । यह न केवल वीडियो उत्पन्न करने में सक्षम है, बल्कि यह नई अत्याधुनिक विधि भी है, जो पहले से कहीं अधिक उच्च गुणवत्ता और अधिक सुसंगत वीडियो का उत्पादन करती है!
आप इस मॉडल को वीडियो के लिए एक स्थिर प्रसार मॉडल के रूप में देख सकते हैं। छवियों को उत्पन्न करने में सक्षम होने के बाद निश्चित रूप से अगला कदम। यह वह सारी जानकारी है जो आपने पहले ही किसी समाचार वेबसाइट पर या सिर्फ लेख के शीर्षक को पढ़कर देखी होगी, लेकिन जो आप अभी तक नहीं जानते हैं वह यह है कि यह वास्तव में क्या है और यह कैसे काम करता है।
ऐसे...
पूरा लेख पढ़ें: https://www.louisbouchard.ai/make-a-video/
► मेटा का ब्लॉग पोस्ट: https://ai.facebook.com/blog/generative-ai-text-to-video/
सिंगर एट अल। (मेटा एआई), 2022, "मेक-ए-वीडियो: टेक्स्ट-टू-वीडियो जनरेशन विदाउट टेक्स्ट-वीडियो डेटा", https://makeavideo.studio/Make-A-Video.pdf
►मेक-ए-वीडियो (आधिकारिक पेज): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
पाइटोरच कार्यान्वयन: https://github.com/lucidrains/make-a-video-pytorch
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
मेथियास की नई मॉडल मेक ए वीडियो आउट
0:03
और एक वाक्य में यह उत्पन्न करता है
0:05
पाठ से वीडियो यह करने में असमर्थ है
0:07
वीडियो जेनरेट करें लेकिन यह भी नया है
0:09
उच्च उत्पादन करने वाली अत्याधुनिक विधि
0:11
की तुलना में गुणवत्ता और अधिक सुसंगत वीडियो
0:14
कभी भी आप इस मॉडल को एक स्थिर के रूप में देख सकते हैं
0:16
वीडियो के लिए प्रसार मॉडल निश्चित रूप से
0:19
उत्पन्न करने में सक्षम होने के बाद अगला कदम
0:21
छवियां इस प्रकार आपको जानकारी होनी चाहिए
0:23
समाचार वेबसाइट पर पहले ही देख चुके हैं या
0:26
सिर्फ वीडियो का शीर्षक पढ़कर
0:28
लेकिन जो आप अभी तक नहीं जानते वह है क्या है
0:30
यह बिल्कुल सही है और यह कैसे काम करता है एक वीडियो बनाएं
0:33
Met . द्वारा नवीनतम प्रकाशन है
0:35
III और यह आपको a . उत्पन्न करने की अनुमति देता है
0:37
टेक्स्ट इनपुट से छोटा वीडियो बस
0:40
इस तरह आप जटिलता जोड़ रहे हैं
0:42
छवि निर्माण परीक्षण के लिए न केवल
0:45
के कई फ्रेम उत्पन्न करने के लिए
0:47
एक ही विषय और दृश्य लेकिन यह भी
0:49
समय में सुसंगत होना चाहिए जो आप नहीं कर सकते
0:51
डेली का उपयोग करके केवल 60 छवियां बनाएं
0:53
और एक वीडियो उत्पन्न करें यह बस दिखेगा
0:56
बुरा और कुछ भी वास्तविक नहीं है जिसकी आपको आवश्यकता है a
0:58
मॉडल जो दुनिया को समझता है a
1:00
बेहतर तरीका है और इस स्तर का लाभ उठाता है
1:02
एक सुसंगत उत्पन्न करने की समझ
1:04
छवियों की श्रृंखला जो अच्छी तरह मिश्रित होती हैं
1:06
साथ में आप मूल रूप से अनुकरण करना चाहते हैं
1:08
एक दुनिया और फिर की रिकॉर्डिंग का अनुकरण करें
1:11
यह लेकिन आप ऐसा कैसे कर सकते हैं आम तौर पर आप
1:14
करने के लिए पाठ वीडियो जोड़े के टन की आवश्यकता होगी
1:16
ऐसे वीडियो बनाने के लिए अपने मॉडल को प्रशिक्षित करें
1:18
टेक्स्ट इनपुट से लेकिन इस मामले में नहीं
1:21
चूंकि इस प्रकार का डेटा वास्तव में है
1:23
प्राप्त करना मुश्किल है और प्रशिक्षण की लागत
1:25
सुपर महंगे हैं वे इस से संपर्क करते हैं
1:27
समस्या अलग तरह से है
1:30
छवि मॉडल के लिए सबसे अच्छा टेक्स्ट लें और
1:32
इसे वीडियो के लिए अनुकूलित करें और यही मुझे मिला
1:35
एक शोध पत्र में उन्होंने किया था
1:38
उनके मामले में जारी किया गया टेक्स्ट टू इमेज
1:40
मॉडल मेटा द्वारा एक अन्य मॉडल है जिसे कहा जाता है
1:43
पत्रिका जिसे मैंने पिछले में कवर किया था
1:45
वीडियो यदि आप इसके बारे में अधिक जानना चाहते हैं
1:47
यह लेकिन आप इस तरह के एक मॉडल को कैसे अनुकूलित करते हैं
1:50
ध्यान में रखें कि आप एक जोड़ते हैं
1:53
आपके मॉडल के लिए स्थानिक अस्थायी पाइपलाइन
1:55
वीडियो संसाधित करने में सक्षम होने के लिए इसका मतलब है
1:58
कि मॉडल न केवल एक उत्पन्न करेगा
2:00
छवि लेकिन इस मामले में उनमें से 16 कम
2:03
एक लघु सुसंगत बनाने का संकल्प
2:06
एक पाठ के समान तरीके से वीडियो
2:08
छवि मॉडल लेकिन एक आयामी जोड़ना
2:11
कनवल्शन के साथ-साथ नियमित
2:13
द्वि-आयामी एक सरल जोड़
2:15
उन्हें पूर्व-प्रशिक्षित रखने की अनुमति देता है
2:17
द्वि-आयामी संकल्प समान
2:19
और एक अस्थायी आयाम जोड़ें कि वे
2:22
अधिकांश का पुन: उपयोग करने से खरोंच से प्रशिक्षित होगा
2:25
से कोड और मॉडल पैरामीटर
2:27
छवि मॉडल उन्होंने हम से भी शुरू किया
2:30
पाठ के साथ हमारी पीढ़ियों का मार्गदर्शन करना चाहते हैं
2:32
इनपुट जो बहुत समान होगा
2:34
क्लिप एम्बेडिंग का उपयोग करके छवि मॉडल a
2:37
प्रक्रिया मैं अपने स्थिर में विस्तार से जाता हूं
2:39
प्रसार वीडियो यदि आप परिचित नहीं हैं
2:41
उनकी समस्या के साथ लेकिन वे भी होंगे
2:43
अस्थायी आयाम जोड़ना जब
2:45
के साथ पाठ सुविधाओं का सम्मिश्रण
2:47
छवि सुविधाएँ एक ही काम कर रही हैं
2:49
मेरे द्वारा वर्णित ध्यान मॉड्यूल को ध्यान में रखते हुए
2:52
मेरे में एक दृश्य वीडियो बनाएं और a . जोड़ें
2:55
एक आयामी ध्यान मॉड्यूल या
2:57
अस्थायी विचार कॉपी पेस्ट कर रहे हैं
3:00
छवि जनरेटर मॉडल और दोहराव
3:02
एक और के लिए पीढ़ी मॉड्यूल
3:04
हमारे सभी 16 प्रारंभिक होने का आयाम
3:07
फ्रेम लेकिन आप 16 . के साथ क्या कर सकते हैं
3:10
फ्रेम अच्छी तरह से वास्तव में कुछ भी दिलचस्प नहीं है
3:13
हमें एक हाई डेफिनिशन वीडियो बनाने की जरूरत है
3:16
उन फ़्रेमों में से मॉडल करेगा
3:19
कि पूर्वावलोकन तक पहुंच और
3:21
भविष्य के फ्रेम और पुनरावृति
3:23
के संदर्भ में उन दोनों से प्रक्षेपित करना
3:27
पर अस्थायी और स्थानिक आयाम
3:30
उसी समय मूल रूप से नया उत्पन्न करना
3:33
और उनके बीच में बड़े फ्रेम
3:35
फ्रेम के आधार पर शुरुआती 16 फ्रेम
3:38
उनके पहले और बाद में जो होगा
3:40
आंदोलन को सुसंगत बनाने के लिए मोहित
3:43
और कुल मिलाकर वीडियो को बर्बाद कर दिया गया है
3:45
फ्रेम इंटरपोलेशन नेटवर्क का उपयोग करना
3:47
जिसका वर्णन मैंने अन्य वीडियो में भी किया है
3:50
लेकिन मूल रूप से हम छवियों को लेंगे
3:52
में उत्पन्न होने वाले अंतरालों को भरना और भरना
3:54
जानकारी के बीच यह वही करेगा
3:57
एक स्थानिक घटक के विस्तार के लिए बात
3:59
छवि और पिक्सेल अंतराल को भरना
4:02
इसे और अधिक उच्च परिभाषा बनाएं
4:04
तो ठीक धुन एक पाठ को संक्षेप में प्रस्तुत करने के लिए
4:07
वीडियो पीढ़ी के लिए छवि मॉडल यह
4:09
इसका मतलब है कि वे पहले से ही एक शक्तिशाली मॉडल लेते हैं
4:12
प्रशिक्षित और अनुकूलित करें और इसे थोड़ा प्रशिक्षित करें
4:14
इस वीडियो के अभ्यस्त होने के लिए थोड़ा और
4:16
बिना लेबल के पुनर्प्रशिक्षण किया जाएगा
4:19
वीडियो सिर्फ मॉडल को सिखाने के लिए
4:21
वीडियो और वीडियो फ्रेम को समझें
4:23
संगति जो डेटा सेट बनाती है
4:25
निर्माण प्रक्रिया बहुत आसान है तो हम
4:27
एक बार फिर एक छवि अनुकूलित मॉडल का उपयोग करें
4:30
हमारे में स्थानिक संकल्प में सुधार करने के लिए
4:32
अंतिम फ्रेम प्रक्षेप घटक
4:35
वीडियो को तरल बनाने के लिए और फ्रेम जोड़ें
4:38
बेशक परिणाम अभी सही नहीं हैं
4:40
छवि मॉडल के लिए पाठ की तरह लेकिन हम
4:43
जानिए प्रगति कितनी तेजी से होती है यह थी
4:45
मैं कैसे मिला इसका सिर्फ एक सिंहावलोकन
4:47
वीडियो को टेक्स्ट से सफलतापूर्वक निपटाया
4:49
इस महान पेपर में कार्य सभी लिंक
4:52
नीचे विवरण में हैं यदि आप
4:53
उनके दृष्टिकोण के बारे में अधिक जानना पसंद करते हैं
4:55
pytorch कार्यान्वयन पर भी है
4:57
पहले से ही समुदाय द्वारा विकसित किया जा रहा है
4:59
साथ ही उसके लिए बने रहें यदि आप
5:02
इसे स्वयं लागू करना पसंद करते हैं धन्यवाद
5:04
पूरा वीडियो देखने के लिए और मैं
5:06
अगली बार मिलते हैं एक और अद्भुत के साथ
5:08
कागज़