paint-brush
मेटा की अभूतपूर्व एआई फिल्म निर्माता: मेक-ए-सीनद्वारा@whatsai
1,833 रीडिंग
1,833 रीडिंग

मेटा की अभूतपूर्व एआई फिल्म निर्माता: मेक-ए-सीन

द्वारा Louis Bouchard5m2022/10/01
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

मेटा एआई का नया मॉडल मेक-ए-वीडियो बाहर है और एक ही वाक्य में: यह टेक्स्ट से वीडियो बनाता है। यह न केवल वीडियो बनाने में सक्षम है, बल्कि यह नई अत्याधुनिक विधि भी है, जो पहले से कहीं अधिक उच्च गुणवत्ता और अधिक सुसंगत वीडियो का उत्पादन करती है। यह वह सभी जानकारी है जो आपने पहले से ही किसी समाचार वेबसाइट पर या केवल लेख के शीर्षक को पढ़कर देखी होगी, लेकिन जो आप अभी तक नहीं जानते हैं वह यह है कि यह वास्तव में क्या है और यह कैसे काम करता है।
featured image - मेटा की अभूतपूर्व एआई फिल्म निर्माता: मेक-ए-सीन
Louis Bouchard HackerNoon profile picture
0-item

मेटा एआई का नया मॉडल मेक-ए-वीडियो आ गया है और एक ही वाक्य में: यह टेक्स्ट से वीडियो बनाता है । यह न केवल वीडियो उत्पन्न करने में सक्षम है, बल्कि यह नई अत्याधुनिक विधि भी है, जो पहले से कहीं अधिक उच्च गुणवत्ता और अधिक सुसंगत वीडियो का उत्पादन करती है!

आप इस मॉडल को वीडियो के लिए एक स्थिर प्रसार मॉडल के रूप में देख सकते हैं। छवियों को उत्पन्न करने में सक्षम होने के बाद निश्चित रूप से अगला कदम। यह वह सारी जानकारी है जो आपने पहले ही किसी समाचार वेबसाइट पर या सिर्फ लेख के शीर्षक को पढ़कर देखी होगी, लेकिन जो आप अभी तक नहीं जानते हैं वह यह है कि यह वास्तव में क्या है और यह कैसे काम करता है।

ऐसे...

संदर्भ

पूरा लेख पढ़ें: https://www.louisbouchard.ai/make-a-video/
► मेटा का ब्लॉग पोस्ट: https://ai.facebook.com/blog/generative-ai-text-to-video/
सिंगर एट अल। (मेटा एआई), 2022, "मेक-ए-वीडियो: टेक्स्ट-टू-वीडियो जनरेशन विदाउट टेक्स्ट-वीडियो डेटा", https://makeavideo.studio/Make-A-Video.pdf
►मेक-ए-वीडियो (आधिकारिक पेज): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
पाइटोरच कार्यान्वयन: https://github.com/lucidrains/make-a-video-pytorch
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

मेथियास की नई मॉडल मेक ए वीडियो आउट

0:03

और एक वाक्य में यह उत्पन्न करता है

0:05

पाठ से वीडियो यह करने में असमर्थ है

0:07

वीडियो जेनरेट करें लेकिन यह भी नया है

0:09

उच्च उत्पादन करने वाली अत्याधुनिक विधि

0:11

की तुलना में गुणवत्ता और अधिक सुसंगत वीडियो

0:14

कभी भी आप इस मॉडल को एक स्थिर के रूप में देख सकते हैं

0:16

वीडियो के लिए प्रसार मॉडल निश्चित रूप से

0:19

उत्पन्न करने में सक्षम होने के बाद अगला कदम

0:21

छवियां इस प्रकार आपको जानकारी होनी चाहिए

0:23

समाचार वेबसाइट पर पहले ही देख चुके हैं या

0:26

सिर्फ वीडियो का शीर्षक पढ़कर

0:28

लेकिन जो आप अभी तक नहीं जानते वह है क्या है

0:30

यह बिल्कुल सही है और यह कैसे काम करता है एक वीडियो बनाएं

0:33

Met . द्वारा नवीनतम प्रकाशन है

0:35

III और यह आपको a . उत्पन्न करने की अनुमति देता है

0:37

टेक्स्ट इनपुट से छोटा वीडियो बस

0:40

इस तरह आप जटिलता जोड़ रहे हैं

0:42

छवि निर्माण परीक्षण के लिए न केवल

0:45

के कई फ्रेम उत्पन्न करने के लिए

0:47

एक ही विषय और दृश्य लेकिन यह भी

0:49

समय में सुसंगत होना चाहिए जो आप नहीं कर सकते

0:51

डेली का उपयोग करके केवल 60 छवियां बनाएं

0:53

और एक वीडियो उत्पन्न करें यह बस दिखेगा

0:56

बुरा और कुछ भी वास्तविक नहीं है जिसकी आपको आवश्यकता है a

0:58

मॉडल जो दुनिया को समझता है a

1:00

बेहतर तरीका है और इस स्तर का लाभ उठाता है

1:02

एक सुसंगत उत्पन्न करने की समझ

1:04

छवियों की श्रृंखला जो अच्छी तरह मिश्रित होती हैं

1:06

साथ में आप मूल रूप से अनुकरण करना चाहते हैं

1:08

एक दुनिया और फिर की रिकॉर्डिंग का अनुकरण करें

1:11

यह लेकिन आप ऐसा कैसे कर सकते हैं आम तौर पर आप

1:14

करने के लिए पाठ वीडियो जोड़े के टन की आवश्यकता होगी

1:16

ऐसे वीडियो बनाने के लिए अपने मॉडल को प्रशिक्षित करें

1:18

टेक्स्ट इनपुट से लेकिन इस मामले में नहीं

1:21

चूंकि इस प्रकार का डेटा वास्तव में है

1:23

प्राप्त करना मुश्किल है और प्रशिक्षण की लागत

1:25

सुपर महंगे हैं वे इस से संपर्क करते हैं

1:27

समस्या अलग तरह से है

1:30

छवि मॉडल के लिए सबसे अच्छा टेक्स्ट लें और

1:32

इसे वीडियो के लिए अनुकूलित करें और यही मुझे मिला

1:35

एक शोध पत्र में उन्होंने किया था

1:38

उनके मामले में जारी किया गया टेक्स्ट टू इमेज

1:40

मॉडल मेटा द्वारा एक अन्य मॉडल है जिसे कहा जाता है

1:43

पत्रिका जिसे मैंने पिछले में कवर किया था

1:45

वीडियो यदि आप इसके बारे में अधिक जानना चाहते हैं

1:47

यह लेकिन आप इस तरह के एक मॉडल को कैसे अनुकूलित करते हैं

1:50

ध्यान में रखें कि आप एक जोड़ते हैं

1:53

आपके मॉडल के लिए स्थानिक अस्थायी पाइपलाइन

1:55

वीडियो संसाधित करने में सक्षम होने के लिए इसका मतलब है

1:58

कि मॉडल न केवल एक उत्पन्न करेगा

2:00

छवि लेकिन इस मामले में उनमें से 16 कम

2:03

एक लघु सुसंगत बनाने का संकल्प

2:06

एक पाठ के समान तरीके से वीडियो

2:08

छवि मॉडल लेकिन एक आयामी जोड़ना

2:11

कनवल्शन के साथ-साथ नियमित

2:13

द्वि-आयामी एक सरल जोड़

2:15

उन्हें पूर्व-प्रशिक्षित रखने की अनुमति देता है

2:17

द्वि-आयामी संकल्प समान

2:19

और एक अस्थायी आयाम जोड़ें कि वे

2:22

अधिकांश का पुन: उपयोग करने से खरोंच से प्रशिक्षित होगा

2:25

से कोड और मॉडल पैरामीटर

2:27

छवि मॉडल उन्होंने हम से भी शुरू किया

2:30

पाठ के साथ हमारी पीढ़ियों का मार्गदर्शन करना चाहते हैं

2:32

इनपुट जो बहुत समान होगा

2:34

क्लिप एम्बेडिंग का उपयोग करके छवि मॉडल a

2:37

प्रक्रिया मैं अपने स्थिर में विस्तार से जाता हूं

2:39

प्रसार वीडियो यदि आप परिचित नहीं हैं

2:41

उनकी समस्या के साथ लेकिन वे भी होंगे

2:43

अस्थायी आयाम जोड़ना जब

2:45

के साथ पाठ सुविधाओं का सम्मिश्रण

2:47

छवि सुविधाएँ एक ही काम कर रही हैं

2:49

मेरे द्वारा वर्णित ध्यान मॉड्यूल को ध्यान में रखते हुए

2:52

मेरे में एक दृश्य वीडियो बनाएं और a . जोड़ें

2:55

एक आयामी ध्यान मॉड्यूल या

2:57

अस्थायी विचार कॉपी पेस्ट कर रहे हैं

3:00

छवि जनरेटर मॉडल और दोहराव

3:02

एक और के लिए पीढ़ी मॉड्यूल

3:04

हमारे सभी 16 प्रारंभिक होने का आयाम

3:07

फ्रेम लेकिन आप 16 . के साथ क्या कर सकते हैं

3:10

फ्रेम अच्छी तरह से वास्तव में कुछ भी दिलचस्प नहीं है

3:13

हमें एक हाई डेफिनिशन वीडियो बनाने की जरूरत है

3:16

उन फ़्रेमों में से मॉडल करेगा

3:19

कि पूर्वावलोकन तक पहुंच और

3:21

भविष्य के फ्रेम और पुनरावृति

3:23

के संदर्भ में उन दोनों से प्रक्षेपित करना

3:27

पर अस्थायी और स्थानिक आयाम

3:30

उसी समय मूल रूप से नया उत्पन्न करना

3:33

और उनके बीच में बड़े फ्रेम

3:35

फ्रेम के आधार पर शुरुआती 16 फ्रेम

3:38

उनके पहले और बाद में जो होगा

3:40

आंदोलन को सुसंगत बनाने के लिए मोहित

3:43

और कुल मिलाकर वीडियो को बर्बाद कर दिया गया है

3:45

फ्रेम इंटरपोलेशन नेटवर्क का उपयोग करना

3:47

जिसका वर्णन मैंने अन्य वीडियो में भी किया है

3:50

लेकिन मूल रूप से हम छवियों को लेंगे

3:52

में उत्पन्न होने वाले अंतरालों को भरना और भरना

3:54

जानकारी के बीच यह वही करेगा

3:57

एक स्थानिक घटक के विस्तार के लिए बात

3:59

छवि और पिक्सेल अंतराल को भरना

4:02

इसे और अधिक उच्च परिभाषा बनाएं

4:04

तो ठीक धुन एक पाठ को संक्षेप में प्रस्तुत करने के लिए

4:07

वीडियो पीढ़ी के लिए छवि मॉडल यह

4:09

इसका मतलब है कि वे पहले से ही एक शक्तिशाली मॉडल लेते हैं

4:12

प्रशिक्षित और अनुकूलित करें और इसे थोड़ा प्रशिक्षित करें

4:14

इस वीडियो के अभ्यस्त होने के लिए थोड़ा और

4:16

बिना लेबल के पुनर्प्रशिक्षण किया जाएगा

4:19

वीडियो सिर्फ मॉडल को सिखाने के लिए

4:21

वीडियो और वीडियो फ्रेम को समझें

4:23

संगति जो डेटा सेट बनाती है

4:25

निर्माण प्रक्रिया बहुत आसान है तो हम

4:27

एक बार फिर एक छवि अनुकूलित मॉडल का उपयोग करें

4:30

हमारे में स्थानिक संकल्प में सुधार करने के लिए

4:32

अंतिम फ्रेम प्रक्षेप घटक

4:35

वीडियो को तरल बनाने के लिए और फ्रेम जोड़ें

4:38

बेशक परिणाम अभी सही नहीं हैं

4:40

छवि मॉडल के लिए पाठ की तरह लेकिन हम

4:43

जानिए प्रगति कितनी तेजी से होती है यह थी

4:45

मैं कैसे मिला इसका सिर्फ एक सिंहावलोकन

4:47

वीडियो को टेक्स्ट से सफलतापूर्वक निपटाया

4:49

इस महान पेपर में कार्य सभी लिंक

4:52

नीचे विवरण में हैं यदि आप

4:53

उनके दृष्टिकोण के बारे में अधिक जानना पसंद करते हैं

4:55

pytorch कार्यान्वयन पर भी है

4:57

पहले से ही समुदाय द्वारा विकसित किया जा रहा है

4:59

साथ ही उसके लिए बने रहें यदि आप

5:02

इसे स्वयं लागू करना पसंद करते हैं धन्यवाद

5:04

पूरा वीडियो देखने के लिए और मैं

5:06

अगली बार मिलते हैं एक और अद्भुत के साथ

5:08

कागज़