मेक-ए-सीन "सिर्फ एक और डेल" नहीं है। इस नए मॉडल का लक्ष्य उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के बाद यादृच्छिक छवियों को उत्पन्न करने की अनुमति नहीं देना है - जो वास्तव में अच्छा है - लेकिन पीढ़ियों पर उपयोगकर्ता नियंत्रण को प्रतिबंधित करता है। इसके बजाय, मेटा रचनात्मक अभिव्यक्ति को आगे बढ़ाना चाहता था, इस टेक्स्ट-टू-इमेज प्रवृत्ति को पिछले स्केच-टू-इमेज मॉडल के साथ मिलाते हुए, "मेक-ए-सीन" की ओर अग्रसर: टेक्स्ट और स्केच-वातानुकूलित छवि निर्माण के बीच एक शानदार मिश्रण। वीडियो में और जानें... संदर्भ पूरा लेख पढ़ें: मेटा का ब्लॉग पोस्ट: पेपर: गफनी, ओ।, पोलाक, ए।, आशुल, ओ।, शीनिन, एस।, पारिख, डी। और टैगमैन, वाई।, 2022। मेक-ए-सीन: सीन-आधारित टेक्स्ट-टू-इमेज जनरेशन मानव पूर्वजों के साथ। ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/make-a-scene/ https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 [संगीत] 0:06 यह एक दृश्य है यह सिर्फ नहीं है 0:08 एक और डेली इस नए मॉडल का लक्ष्य 0:11 उपयोगकर्ताओं को यादृच्छिक उत्पन्न करने की अनुमति नहीं देना है 0:13 dali . के रूप में टेक्स्ट प्रॉम्प्ट का अनुसरण करने वाली छवियां 0:15 करता है जो वास्तव में अच्छा है लेकिन प्रतिबंधित करता है 0:17 पीढ़ियों पर उपयोगकर्ता नियंत्रण 0:20 इसके बजाय मेटा क्रिएटिव को आगे बढ़ाना चाहती थी 0:22 एक्सप्रेशन फॉरवर्ड इस टेक्स्ट को मर्ज कर रहा है 0:25 पिछले स्केच के साथ छवि प्रवृत्ति 0:27 एक दृश्य बनाने के लिए अग्रणी छवि मॉडल a 0:30 टेक्स्ट और स्केच के बीच शानदार मिश्रण 0:32 वातानुकूलित छवि निर्माण यह बस 0:35 इसका मतलब है कि आप इस नए दृष्टिकोण का उपयोग कर रहे हैं 0:37 जल्दी से एक बिल्ली को स्केच कर सकते हैं और लिख सकते हैं 0:40 आप किस तरह की छवि चाहते हैं और 0:42 छवि निर्माण प्रक्रिया का पालन करेंगे 0:43 स्केच और आपके मार्गदर्शन दोनों 0:45 पाठ यह हमें होने के और भी करीब ले जाता है 0:48 परिपूर्ण उत्पन्न करने में सक्षम 0:49 चित्रण हम कुछ ही सेकंड में चाहते हैं 0:52 आप इस मल्टीमॉडल जनरेटिव को देख सकते हैं 0:54 एक बिट के साथ दैनिक मॉडल के रूप में एआई विधि 0:57 के बाद से पीढ़ियों पर अधिक नियंत्रण 0:59 यह एक त्वरित स्केच के रूप में भी ले सकता है 1:01 इनपुट इसलिए हम इसे मल्टीमॉडल कहते हैं 1:04 चूंकि यह कई तौर-तरीकों को ले सकता है: 1:07 पाठ और एक छवि जैसे इनपुट एक स्केच 1:10 इस मामले में दिल्ली की तुलना में जो 1:12 केवल एक छवि उत्पन्न करने के लिए पाठ लेता है 1:14 मल्टी-मोडल मॉडल कुछ सुपर हैं 1:17 होनहार खासकर अगर हम मेल खाते हैं 1:19 परिणामों की गुणवत्ता जो हम ऑनलाइन देखते हैं 1:21 चूँकि हमारा पर अधिक नियंत्रण है 1:23 परिणाम बहुत करीब हो रहे हैं 1:25 उत्पन्न करने का दिलचस्प अंतिम लक्ष्य 1:27 सही छवि हमारे मन में है बिना 1:30 कोई भी डिजाइन कौशल निश्चित रूप से यह है 1:32 अभी भी अनुसंधान की स्थिति में है और एक है 1:34 खोजपूर्ण एआई अनुसंधान अवधारणा आईटी 1:37 इसका मतलब यह नहीं है कि हम जो देखते हैं वह नहीं है 1:38 प्राप्त करने योग्य इसका मतलब यह है कि यह एक ले जाएगा 1:41 जनता तक पहुंचने के लिए थोड़ा और समय 1:43 क्षेत्र में बहुत तेजी से प्रगति हो रही है 1:45 और मुझे यह देखकर आश्चर्य नहीं होगा 1:47 बहुत जल्द या इसी तरह के मॉडल में रहते हैं 1:49 अन्य लोगों के साथ खेलने के लिए मेरा मानना है कि 1:52 ऐसे स्केच और टेक्स्ट-आधारित मॉडल हैं 1:54 विशेष रूप से के लिए और भी दिलचस्प 1:56 उद्योग इसलिए मैं कवर करना चाहता था 1:58 यह मेरे चैनल पर भले ही परिणाम 2:00 दैनिक 2 की तुलना में थोड़ा पीछे हैं जो हम देखते हैं 2:03 ऑनलाइन और यह न केवल के लिए दिलचस्प है 2:05 उद्योग लेकिन कलाकारों के लिए भी कुछ 2:08 समरूप उत्पन्न करने के लिए स्केच सुविधा का उपयोग करें 2:10 दिल्ली से ज्यादा अप्रत्याशित परिणाम 2:13 क्या हम इसे उत्पन्न करने के लिए कह सकते हैं 2:14 कुछ और एक ऐसा रूप बनाएं जो नहीं करता है 2:17 विशिष्ट चीज़ का प्रतिनिधित्व करते हैं जैसे 2:18 फूल के आकार में जेलीफ़िश खींचना 2:21 जिसके साथ होना असंभव नहीं हो सकता है 2:23 डाली लेकिन बिना बहुत अधिक जटिल 2:25 मॉडल के रूप में स्केच मार्गदर्शन ही होगा 2:27 वह जो सीखता है उसे पुन: पेश करें 2:29 वास्तविक दुनिया की छवियों से आता है और 2:32 चित्रण तो मुख्य प्रश्न है 2:34 वे पीढ़ियों का मार्गदर्शन कैसे कर सकते हैं 2:36 दोनों टेक्स्ट इनपुट जैसे दिल्ली और एक स्केच 2:39 एक साथ और मॉडल का पालन करें 2:41 दोनों दिशानिर्देश अच्छी तरह से यह बहुत बहुत है 2:44 इसी तरह दिल्ली कैसे काम करता है इसलिए मैं नहीं करूंगा 2:47 a . के विवरण में बहुत अधिक दर्ज करें 2:49 जनरेटिव मॉडल जैसा कि मैंने कम से कम कवर किया है 2:51 अतीत में पांच अलग-अलग दृष्टिकोण 2:53 दो महीने जो आपको जरूर करने चाहिए 2:55 देखें कि क्या आपने अभी तक इन मॉडलों के रूप में नहीं देखा है 2:57 जैसे डाली 2 या इमोजेन काफी हैं 2:59 ज़बरदस्त 3:00 आम तौर पर ये मॉडल ले लेंगे 3:02 सीखने के लिए लाखों प्रशिक्षण उदाहरण 3:04 टेक्स्ट से छवियों को कैसे उत्पन्न करें 3:07 छवियों के रूप में डेटा और उनके 3:09 कैप्शन यहां इंटरनेट से स्क्रैप किया गया 3:12 प्रशिक्षण के दौरान केवल निर्भर रहने के बजाय 3:14 पहले उत्पन्न करने वाले कैप्शन पर 3:17 छवि का संस्करण और इसकी तुलना 3:19 वास्तविक छवि और इसे दोहराना 3:21 हमारे सभी के साथ कई बार प्रक्रिया करें 3:23 छवियां हम इसे एक स्केच भी खिलाएंगे 3:26 क्या अच्छा है कि रेखाचित्र हैं 3:28 प्रशिक्षण के लिए उत्पादन करना काफी आसान है 3:30 बस आप एक पूर्व-प्रशिक्षित नेटवर्क लें 3:32 ऑनलाइन डाउनलोड कर सकते हैं और उदाहरण प्रदर्शन कर सकते हैं 3:35 उन लोगों के लिए विभाजन जो चाहते हैं 3:37 विवरण वे एक निःशुल्क पूर्व-प्रशिक्षित वीजीजी का उपयोग करते हैं 3:40 इमेजनेट पर मॉडल इतना छोटा है 3:42 आज के सुपर . की तुलना में नेटवर्क 3:44 सटीक और तेजी से उत्पादन करने वाले परिणाम जैसे 3:47 इसे एक विभाजन मानचित्र कहा जाता है 3:49 बस एक बार उनकी सभी छवियों को संसाधित करें और 3:52 मॉडल के प्रशिक्षण के लिए ये मानचित्र प्राप्त करें 3:55 फिर इस मानचित्र के साथ-साथ कैप्शन का भी उपयोग करें 3:58 उत्पन्न करने के लिए मॉडल को उन्मुख करने के लिए 4:00 प्रारंभिक छवि अनुमान के समय या कब 4:02 हम में से कोई एक इसका इस्तेमाल करेगा हमारा स्केच होगा 4:05 उन नक्शों को बदलें जैसा कि मैंने कहा था कि उन्होंने a . का उपयोग किया है 4:08 नकली स्केच बनाने के लिए मॉडल ने वीजीजी को बुलाया 4:11 प्रशिक्षण के लिए वे एक ट्रांसफार्मर का उपयोग करते हैं 4:13 छवि निर्माण के लिए वास्तुकला 4:15 प्रक्रिया जो डॉली से अलग है 4:17 और मैं आपको वीडियो देखने के लिए आमंत्रित करता हूं I 4:19 दृष्टि के लिए ट्रांसफॉर्मर का परिचय दिया 4:21 आवेदन यदि आप अधिक विवरण चाहते हैं 4:23 यह कैसे संसाधित और उत्पन्न कर सकता है 4:25 चित्र यह स्केच निर्देशित ट्रांसफार्मर है 4:28 पत्रिका के साथ मुख्य अंतर 4:30 जैसे छवि पाठ रैंकर का उपयोग न करने के साथ 4:33 पाठ और छवि जोड़े को मापने के लिए क्लिप 4:36 जिसके बारे में आप my . में भी जान सकते हैं 4:37 दैनिक वीडियो 4:39 इसके बजाय सभी एन्कोडेड टेक्स्ट और 4:41 विभाजन मानचित्र को भेजा जाता है 4:43 ट्रांसफॉर्मर मॉडल मॉडल तो 4:45 प्रासंगिक छवि टोकन उत्पन्न करता है 4:48 संबंधित द्वारा एन्कोड और डिकोड किया गया 4:50 नेटवर्क मुख्य रूप से छवि का उत्पादन करने के लिए 4:53 प्रशिक्षण के दौरान एन्कोडर का उपयोग किया जाता है 4:55 के बीच अंतर की गणना करें 4:57 निर्मित और प्रारंभिक छवि लेकिन केवल 4:59 इसे लेने के लिए डिकोडर की आवश्यकता होती है 5:01 ट्रांसफॉर्मर आउटपुट और इसे में बदलना 5:04 एक छवि 5:05 और वोइला इस प्रकार है मेटा का नया मॉडल 5:08 एक स्केच और टेक्स्ट इनपुट लेने में सक्षम है 5:11 और एक उच्च परिभाषा छवि उत्पन्न करें 5:13 इस पर अधिक नियंत्रण की अनुमति देता है 5:16 उत्कृष्ट गुणवत्ता के साथ परिणाम 5:18 और जैसा कि वे कहते हैं कि यह सिर्फ शुरुआत है 5:20 इस नए प्रकार के एआई मॉडल का 5:22 दृष्टिकोण बस दोनों में सुधार करते रहेंगे 5:24 गुणवत्ता और उपलब्धता के मामले में 5:27 जनता जो सुपर रोमांचक है कई 5:30 कलाकार पहले से ही मॉडल का उपयोग कर रहे हैं 5:32 मेटा के में वर्णित के रूप में अपने स्वयं के काम 5:34 ब्लॉग पोस्ट और मैं उत्साहित हूं जब हम 5:37 उनका भी उपयोग कर सकेंगे 5:39 दृष्टिकोण को किसी कोडिंग की आवश्यकता नहीं है 5:41 ज्ञान केवल एक अच्छा स्केचिंग हाथ और 5:43 कुछ शीघ्र इंजीनियरिंग जिसका अर्थ है 5:45 पाठ इनपुट के साथ परीक्षण और त्रुटि 5:48 फॉर्मूलेशन और इस्तेमाल किए गए शब्दों को बदलना 5:50 अलग और बेहतर परिणाम देने के लिए 5:53 बेशक यह सिर्फ का एक सिंहावलोकन था 5:55 नया एक दृश्य दृष्टिकोण बनाते हैं और मैं 5:57 जुड़ा हुआ पूरा पेपर पढ़ने के लिए आमंत्रित करें 5:59 नीचे एक संपूर्ण अवलोकन के लिए कि यह कैसे है 6:02 काम करता है मुझे आशा है कि आपको यह वीडियो पसंद आया होगा 6:04 और मैं आपसे अगले सप्ताह मिलूंगा 6:06 एक और अद्भुत पेपर 6:09 [संगीत]