मेक-ए-सीन "सिर्फ एक और डेल" नहीं है। इस नए मॉडल का लक्ष्य उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के बाद यादृच्छिक छवियों को उत्पन्न करने की अनुमति नहीं देना है - जो वास्तव में अच्छा है - लेकिन पीढ़ियों पर उपयोगकर्ता नियंत्रण को प्रतिबंधित करता है।
इसके बजाय, मेटा रचनात्मक अभिव्यक्ति को आगे बढ़ाना चाहता था, इस टेक्स्ट-टू-इमेज प्रवृत्ति को पिछले स्केच-टू-इमेज मॉडल के साथ मिलाते हुए, "मेक-ए-सीन" की ओर अग्रसर: टेक्स्ट और स्केच-वातानुकूलित छवि निर्माण के बीच एक शानदार मिश्रण। वीडियो में और जानें...
पूरा लेख पढ़ें: https://www.louisbouchard.ai/make-a-scene/
मेटा का ब्लॉग पोस्ट: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
पेपर: गफनी, ओ।, पोलाक, ए।, आशुल, ओ।, शीनिन, एस।, पारिख, डी। और
टैगमैन, वाई।, 2022। मेक-ए-सीन: सीन-आधारित टेक्स्ट-टू-इमेज जनरेशन
मानव पूर्वजों के साथ।
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
[संगीत]
0:06
यह एक दृश्य है यह सिर्फ नहीं है
0:08
एक और डेली इस नए मॉडल का लक्ष्य
0:11
उपयोगकर्ताओं को यादृच्छिक उत्पन्न करने की अनुमति नहीं देना है
0:13
dali . के रूप में टेक्स्ट प्रॉम्प्ट का अनुसरण करने वाली छवियां
0:15
करता है जो वास्तव में अच्छा है लेकिन प्रतिबंधित करता है
0:17
पीढ़ियों पर उपयोगकर्ता नियंत्रण
0:20
इसके बजाय मेटा क्रिएटिव को आगे बढ़ाना चाहती थी
0:22
एक्सप्रेशन फॉरवर्ड इस टेक्स्ट को मर्ज कर रहा है
0:25
पिछले स्केच के साथ छवि प्रवृत्ति
0:27
एक दृश्य बनाने के लिए अग्रणी छवि मॉडल a
0:30
टेक्स्ट और स्केच के बीच शानदार मिश्रण
0:32
वातानुकूलित छवि निर्माण यह बस
0:35
इसका मतलब है कि आप इस नए दृष्टिकोण का उपयोग कर रहे हैं
0:37
जल्दी से एक बिल्ली को स्केच कर सकते हैं और लिख सकते हैं
0:40
आप किस तरह की छवि चाहते हैं और
0:42
छवि निर्माण प्रक्रिया का पालन करेंगे
0:43
स्केच और आपके मार्गदर्शन दोनों
0:45
पाठ यह हमें होने के और भी करीब ले जाता है
0:48
परिपूर्ण उत्पन्न करने में सक्षम
0:49
चित्रण हम कुछ ही सेकंड में चाहते हैं
0:52
आप इस मल्टीमॉडल जनरेटिव को देख सकते हैं
0:54
एक बिट के साथ दैनिक मॉडल के रूप में एआई विधि
0:57
के बाद से पीढ़ियों पर अधिक नियंत्रण
0:59
यह एक त्वरित स्केच के रूप में भी ले सकता है
1:01
इनपुट इसलिए हम इसे मल्टीमॉडल कहते हैं
1:04
चूंकि यह कई तौर-तरीकों को ले सकता है:
1:07
पाठ और एक छवि जैसे इनपुट एक स्केच
1:10
इस मामले में दिल्ली की तुलना में जो
1:12
केवल एक छवि उत्पन्न करने के लिए पाठ लेता है
1:14
मल्टी-मोडल मॉडल कुछ सुपर हैं
1:17
होनहार खासकर अगर हम मेल खाते हैं
1:19
परिणामों की गुणवत्ता जो हम ऑनलाइन देखते हैं
1:21
चूँकि हमारा पर अधिक नियंत्रण है
1:23
परिणाम बहुत करीब हो रहे हैं
1:25
उत्पन्न करने का दिलचस्प अंतिम लक्ष्य
1:27
सही छवि हमारे मन में है बिना
1:30
कोई भी डिजाइन कौशल निश्चित रूप से यह है
1:32
अभी भी अनुसंधान की स्थिति में है और एक है
1:34
खोजपूर्ण एआई अनुसंधान अवधारणा आईटी
1:37
इसका मतलब यह नहीं है कि हम जो देखते हैं वह नहीं है
1:38
प्राप्त करने योग्य इसका मतलब यह है कि यह एक ले जाएगा
1:41
जनता तक पहुंचने के लिए थोड़ा और समय
1:43
क्षेत्र में बहुत तेजी से प्रगति हो रही है
1:45
और मुझे यह देखकर आश्चर्य नहीं होगा
1:47
बहुत जल्द या इसी तरह के मॉडल में रहते हैं
1:49
अन्य लोगों के साथ खेलने के लिए मेरा मानना है कि
1:52
ऐसे स्केच और टेक्स्ट-आधारित मॉडल हैं
1:54
विशेष रूप से के लिए और भी दिलचस्प
1:56
उद्योग इसलिए मैं कवर करना चाहता था
1:58
यह मेरे चैनल पर भले ही परिणाम
2:00
दैनिक 2 की तुलना में थोड़ा पीछे हैं जो हम देखते हैं
2:03
ऑनलाइन और यह न केवल के लिए दिलचस्प है
2:05
उद्योग लेकिन कलाकारों के लिए भी कुछ
2:08
समरूप उत्पन्न करने के लिए स्केच सुविधा का उपयोग करें
2:10
दिल्ली से ज्यादा अप्रत्याशित परिणाम
2:13
क्या हम इसे उत्पन्न करने के लिए कह सकते हैं
2:14
कुछ और एक ऐसा रूप बनाएं जो नहीं करता है
2:17
विशिष्ट चीज़ का प्रतिनिधित्व करते हैं जैसे
2:18
फूल के आकार में जेलीफ़िश खींचना
2:21
जिसके साथ होना असंभव नहीं हो सकता है
2:23
डाली लेकिन बिना बहुत अधिक जटिल
2:25
मॉडल के रूप में स्केच मार्गदर्शन ही होगा
2:27
वह जो सीखता है उसे पुन: पेश करें
2:29
वास्तविक दुनिया की छवियों से आता है और
2:32
चित्रण तो मुख्य प्रश्न है
2:34
वे पीढ़ियों का मार्गदर्शन कैसे कर सकते हैं
2:36
दोनों टेक्स्ट इनपुट जैसे दिल्ली और एक स्केच
2:39
एक साथ और मॉडल का पालन करें
2:41
दोनों दिशानिर्देश अच्छी तरह से यह बहुत बहुत है
2:44
इसी तरह दिल्ली कैसे काम करता है इसलिए मैं नहीं करूंगा
2:47
a . के विवरण में बहुत अधिक दर्ज करें
2:49
जनरेटिव मॉडल जैसा कि मैंने कम से कम कवर किया है
2:51
अतीत में पांच अलग-अलग दृष्टिकोण
2:53
दो महीने जो आपको जरूर करने चाहिए
2:55
देखें कि क्या आपने अभी तक इन मॉडलों के रूप में नहीं देखा है
2:57
जैसे डाली 2 या इमोजेन काफी हैं
2:59
ज़बरदस्त
3:00
आम तौर पर ये मॉडल ले लेंगे
3:02
सीखने के लिए लाखों प्रशिक्षण उदाहरण
3:04
टेक्स्ट से छवियों को कैसे उत्पन्न करें
3:07
छवियों के रूप में डेटा और उनके
3:09
कैप्शन यहां इंटरनेट से स्क्रैप किया गया
3:12
प्रशिक्षण के दौरान केवल निर्भर रहने के बजाय
3:14
पहले उत्पन्न करने वाले कैप्शन पर
3:17
छवि का संस्करण और इसकी तुलना
3:19
वास्तविक छवि और इसे दोहराना
3:21
हमारे सभी के साथ कई बार प्रक्रिया करें
3:23
छवियां हम इसे एक स्केच भी खिलाएंगे
3:26
क्या अच्छा है कि रेखाचित्र हैं
3:28
प्रशिक्षण के लिए उत्पादन करना काफी आसान है
3:30
बस आप एक पूर्व-प्रशिक्षित नेटवर्क लें
3:32
ऑनलाइन डाउनलोड कर सकते हैं और उदाहरण प्रदर्शन कर सकते हैं
3:35
उन लोगों के लिए विभाजन जो चाहते हैं
3:37
विवरण वे एक निःशुल्क पूर्व-प्रशिक्षित वीजीजी का उपयोग करते हैं
3:40
इमेजनेट पर मॉडल इतना छोटा है
3:42
आज के सुपर . की तुलना में नेटवर्क
3:44
सटीक और तेजी से उत्पादन करने वाले परिणाम जैसे
3:47
इसे एक विभाजन मानचित्र कहा जाता है
3:49
बस एक बार उनकी सभी छवियों को संसाधित करें और
3:52
मॉडल के प्रशिक्षण के लिए ये मानचित्र प्राप्त करें
3:55
फिर इस मानचित्र के साथ-साथ कैप्शन का भी उपयोग करें
3:58
उत्पन्न करने के लिए मॉडल को उन्मुख करने के लिए
4:00
प्रारंभिक छवि अनुमान के समय या कब
4:02
हम में से कोई एक इसका इस्तेमाल करेगा हमारा स्केच होगा
4:05
उन नक्शों को बदलें जैसा कि मैंने कहा था कि उन्होंने a . का उपयोग किया है
4:08
नकली स्केच बनाने के लिए मॉडल ने वीजीजी को बुलाया
4:11
प्रशिक्षण के लिए वे एक ट्रांसफार्मर का उपयोग करते हैं
4:13
छवि निर्माण के लिए वास्तुकला
4:15
प्रक्रिया जो डॉली से अलग है
4:17
और मैं आपको वीडियो देखने के लिए आमंत्रित करता हूं I
4:19
दृष्टि के लिए ट्रांसफॉर्मर का परिचय दिया
4:21
आवेदन यदि आप अधिक विवरण चाहते हैं
4:23
यह कैसे संसाधित और उत्पन्न कर सकता है
4:25
चित्र यह स्केच निर्देशित ट्रांसफार्मर है
4:28
पत्रिका के साथ मुख्य अंतर
4:30
जैसे छवि पाठ रैंकर का उपयोग न करने के साथ
4:33
पाठ और छवि जोड़े को मापने के लिए क्लिप
4:36
जिसके बारे में आप my . में भी जान सकते हैं
4:37
दैनिक वीडियो
4:39
इसके बजाय सभी एन्कोडेड टेक्स्ट और
4:41
विभाजन मानचित्र को भेजा जाता है
4:43
ट्रांसफॉर्मर मॉडल मॉडल तो
4:45
प्रासंगिक छवि टोकन उत्पन्न करता है
4:48
संबंधित द्वारा एन्कोड और डिकोड किया गया
4:50
नेटवर्क मुख्य रूप से छवि का उत्पादन करने के लिए
4:53
प्रशिक्षण के दौरान एन्कोडर का उपयोग किया जाता है
4:55
के बीच अंतर की गणना करें
4:57
निर्मित और प्रारंभिक छवि लेकिन केवल
4:59
इसे लेने के लिए डिकोडर की आवश्यकता होती है
5:01
ट्रांसफॉर्मर आउटपुट और इसे में बदलना
5:04
एक छवि
5:05
और वोइला इस प्रकार है मेटा का नया मॉडल
5:08
एक स्केच और टेक्स्ट इनपुट लेने में सक्षम है
5:11
और एक उच्च परिभाषा छवि उत्पन्न करें
5:13
इस पर अधिक नियंत्रण की अनुमति देता है
5:16
उत्कृष्ट गुणवत्ता के साथ परिणाम
5:18
और जैसा कि वे कहते हैं कि यह सिर्फ शुरुआत है
5:20
इस नए प्रकार के एआई मॉडल का
5:22
दृष्टिकोण बस दोनों में सुधार करते रहेंगे
5:24
गुणवत्ता और उपलब्धता के मामले में
5:27
जनता जो सुपर रोमांचक है कई
5:30
कलाकार पहले से ही मॉडल का उपयोग कर रहे हैं
5:32
मेटा के में वर्णित के रूप में अपने स्वयं के काम
5:34
ब्लॉग पोस्ट और मैं उत्साहित हूं जब हम
5:37
उनका भी उपयोग कर सकेंगे
5:39
दृष्टिकोण को किसी कोडिंग की आवश्यकता नहीं है
5:41
ज्ञान केवल एक अच्छा स्केचिंग हाथ और
5:43
कुछ शीघ्र इंजीनियरिंग जिसका अर्थ है
5:45
पाठ इनपुट के साथ परीक्षण और त्रुटि
5:48
फॉर्मूलेशन और इस्तेमाल किए गए शब्दों को बदलना
5:50
अलग और बेहतर परिणाम देने के लिए
5:53
बेशक यह सिर्फ का एक सिंहावलोकन था
5:55
नया एक दृश्य दृष्टिकोण बनाते हैं और मैं
5:57
जुड़ा हुआ पूरा पेपर पढ़ने के लिए आमंत्रित करें
5:59
नीचे एक संपूर्ण अवलोकन के लिए कि यह कैसे है
6:02
काम करता है मुझे आशा है कि आपको यह वीडियो पसंद आया होगा
6:04
और मैं आपसे अगले सप्ताह मिलूंगा
6:06
एक और अद्भुत पेपर
6:09
[संगीत]