paint-brush
मेटा एआई का मेक-ए-सीन टेक्स्ट और स्केच के साथ कलाकृति तैयार करता हैद्वारा@whatsai
3,129 रीडिंग
3,129 रीडिंग

मेटा एआई का मेक-ए-सीन टेक्स्ट और स्केच के साथ कलाकृति तैयार करता है

द्वारा Louis Bouchard6m2022/07/20
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

इस नए मॉडल का लक्ष्य उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के बाद यादृच्छिक छवियां उत्पन्न करने की अनुमति नहीं देना है जैसा कि डेल करता है। इसके बजाय, मेटा पिछले स्केच-टू-इमेज मॉडल के साथ इस टेक्स्ट को मर्ज करने के लिए रचनात्मक अभिव्यक्ति को आगे बढ़ाना चाहता था, जिससे "मेक-ए-सीन": टेक्स्ट और स्केच-वातानुकूलित छवि निर्माण के बीच एक शानदार मिश्रण। वीडियो में और जानें... 'मेक-ए-सीन 'सिर्फ एक और डेल' नहीं है - बल्कि पीढ़ियों पर उपयोगकर्ता के नियंत्रण को प्रतिबंधित करता है।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - मेटा एआई का मेक-ए-सीन टेक्स्ट और स्केच के साथ कलाकृति तैयार करता है
Louis Bouchard HackerNoon profile picture

मेक-ए-सीन "सिर्फ एक और डेल" नहीं है। इस नए मॉडल का लक्ष्य उपयोगकर्ताओं को टेक्स्ट प्रॉम्प्ट के बाद यादृच्छिक छवियों को उत्पन्न करने की अनुमति नहीं देना है - जो वास्तव में अच्छा है - लेकिन पीढ़ियों पर उपयोगकर्ता नियंत्रण को प्रतिबंधित करता है।

इसके बजाय, मेटा रचनात्मक अभिव्यक्ति को आगे बढ़ाना चाहता था, इस टेक्स्ट-टू-इमेज प्रवृत्ति को पिछले स्केच-टू-इमेज मॉडल के साथ मिलाते हुए, "मेक-ए-सीन" की ओर अग्रसर: टेक्स्ट और स्केच-वातानुकूलित छवि निर्माण के बीच एक शानदार मिश्रण। वीडियो में और जानें...

संदर्भ

पूरा लेख पढ़ें: https://www.louisbouchard.ai/make-a-scene/
मेटा का ब्लॉग पोस्ट: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
पेपर: गफनी, ओ।, पोलाक, ए।, आशुल, ओ।, शीनिन, एस।, पारिख, डी। और
टैगमैन, वाई।, 2022। मेक-ए-सीन: सीन-आधारित टेक्स्ट-टू-इमेज जनरेशन
मानव पूर्वजों के साथ।
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

[संगीत]

0:06

यह एक दृश्य है यह सिर्फ नहीं है

0:08

एक और डेली इस नए मॉडल का लक्ष्य

0:11

उपयोगकर्ताओं को यादृच्छिक उत्पन्न करने की अनुमति नहीं देना है

0:13

dali . के रूप में टेक्स्ट प्रॉम्प्ट का अनुसरण करने वाली छवियां

0:15

करता है जो वास्तव में अच्छा है लेकिन प्रतिबंधित करता है

0:17

पीढ़ियों पर उपयोगकर्ता नियंत्रण

0:20

इसके बजाय मेटा क्रिएटिव को आगे बढ़ाना चाहती थी

0:22

एक्सप्रेशन फॉरवर्ड इस टेक्स्ट को मर्ज कर रहा है

0:25

पिछले स्केच के साथ छवि प्रवृत्ति

0:27

एक दृश्य बनाने के लिए अग्रणी छवि मॉडल a

0:30

टेक्स्ट और स्केच के बीच शानदार मिश्रण

0:32

वातानुकूलित छवि निर्माण यह बस

0:35

इसका मतलब है कि आप इस नए दृष्टिकोण का उपयोग कर रहे हैं

0:37

जल्दी से एक बिल्ली को स्केच कर सकते हैं और लिख सकते हैं

0:40

आप किस तरह की छवि चाहते हैं और

0:42

छवि निर्माण प्रक्रिया का पालन करेंगे

0:43

स्केच और आपके मार्गदर्शन दोनों

0:45

पाठ यह हमें होने के और भी करीब ले जाता है

0:48

परिपूर्ण उत्पन्न करने में सक्षम

0:49

चित्रण हम कुछ ही सेकंड में चाहते हैं

0:52

आप इस मल्टीमॉडल जनरेटिव को देख सकते हैं

0:54

एक बिट के साथ दैनिक मॉडल के रूप में एआई विधि

0:57

के बाद से पीढ़ियों पर अधिक नियंत्रण

0:59

यह एक त्वरित स्केच के रूप में भी ले सकता है

1:01

इनपुट इसलिए हम इसे मल्टीमॉडल कहते हैं

1:04

चूंकि यह कई तौर-तरीकों को ले सकता है:

1:07

पाठ और एक छवि जैसे इनपुट एक स्केच

1:10

इस मामले में दिल्ली की तुलना में जो

1:12

केवल एक छवि उत्पन्न करने के लिए पाठ लेता है

1:14

मल्टी-मोडल मॉडल कुछ सुपर हैं

1:17

होनहार खासकर अगर हम मेल खाते हैं

1:19

परिणामों की गुणवत्ता जो हम ऑनलाइन देखते हैं

1:21

चूँकि हमारा पर अधिक नियंत्रण है

1:23

परिणाम बहुत करीब हो रहे हैं

1:25

उत्पन्न करने का दिलचस्प अंतिम लक्ष्य

1:27

सही छवि हमारे मन में है बिना

1:30

कोई भी डिजाइन कौशल निश्चित रूप से यह है

1:32

अभी भी अनुसंधान की स्थिति में है और एक है

1:34

खोजपूर्ण एआई अनुसंधान अवधारणा आईटी

1:37

इसका मतलब यह नहीं है कि हम जो देखते हैं वह नहीं है

1:38

प्राप्त करने योग्य इसका मतलब यह है कि यह एक ले जाएगा

1:41

जनता तक पहुंचने के लिए थोड़ा और समय

1:43

क्षेत्र में बहुत तेजी से प्रगति हो रही है

1:45

और मुझे यह देखकर आश्चर्य नहीं होगा

1:47

बहुत जल्द या इसी तरह के मॉडल में रहते हैं

1:49

अन्य लोगों के साथ खेलने के लिए मेरा मानना है कि

1:52

ऐसे स्केच और टेक्स्ट-आधारित मॉडल हैं

1:54

विशेष रूप से के लिए और भी दिलचस्प

1:56

उद्योग इसलिए मैं कवर करना चाहता था

1:58

यह मेरे चैनल पर भले ही परिणाम

2:00

दैनिक 2 की तुलना में थोड़ा पीछे हैं जो हम देखते हैं

2:03

ऑनलाइन और यह न केवल के लिए दिलचस्प है

2:05

उद्योग लेकिन कलाकारों के लिए भी कुछ

2:08

समरूप उत्पन्न करने के लिए स्केच सुविधा का उपयोग करें

2:10

दिल्ली से ज्यादा अप्रत्याशित परिणाम

2:13

क्या हम इसे उत्पन्न करने के लिए कह सकते हैं

2:14

कुछ और एक ऐसा रूप बनाएं जो नहीं करता है

2:17

विशिष्ट चीज़ का प्रतिनिधित्व करते हैं जैसे

2:18

फूल के आकार में जेलीफ़िश खींचना

2:21

जिसके साथ होना असंभव नहीं हो सकता है

2:23

डाली लेकिन बिना बहुत अधिक जटिल

2:25

मॉडल के रूप में स्केच मार्गदर्शन ही होगा

2:27

वह जो सीखता है उसे पुन: पेश करें

2:29

वास्तविक दुनिया की छवियों से आता है और

2:32

चित्रण तो मुख्य प्रश्न है

2:34

वे पीढ़ियों का मार्गदर्शन कैसे कर सकते हैं

2:36

दोनों टेक्स्ट इनपुट जैसे दिल्ली और एक स्केच

2:39

एक साथ और मॉडल का पालन करें

2:41

दोनों दिशानिर्देश अच्छी तरह से यह बहुत बहुत है

2:44

इसी तरह दिल्ली कैसे काम करता है इसलिए मैं नहीं करूंगा

2:47

a . के विवरण में बहुत अधिक दर्ज करें

2:49

जनरेटिव मॉडल जैसा कि मैंने कम से कम कवर किया है

2:51

अतीत में पांच अलग-अलग दृष्टिकोण

2:53

दो महीने जो आपको जरूर करने चाहिए

2:55

देखें कि क्या आपने अभी तक इन मॉडलों के रूप में नहीं देखा है

2:57

जैसे डाली 2 या इमोजेन काफी हैं

2:59

ज़बरदस्त

3:00

आम तौर पर ये मॉडल ले लेंगे

3:02

सीखने के लिए लाखों प्रशिक्षण उदाहरण

3:04

टेक्स्ट से छवियों को कैसे उत्पन्न करें

3:07

छवियों के रूप में डेटा और उनके

3:09

कैप्शन यहां इंटरनेट से स्क्रैप किया गया

3:12

प्रशिक्षण के दौरान केवल निर्भर रहने के बजाय

3:14

पहले उत्पन्न करने वाले कैप्शन पर

3:17

छवि का संस्करण और इसकी तुलना

3:19

वास्तविक छवि और इसे दोहराना

3:21

हमारे सभी के साथ कई बार प्रक्रिया करें

3:23

छवियां हम इसे एक स्केच भी खिलाएंगे

3:26

क्या अच्छा है कि रेखाचित्र हैं

3:28

प्रशिक्षण के लिए उत्पादन करना काफी आसान है

3:30

बस आप एक पूर्व-प्रशिक्षित नेटवर्क लें

3:32

ऑनलाइन डाउनलोड कर सकते हैं और उदाहरण प्रदर्शन कर सकते हैं

3:35

उन लोगों के लिए विभाजन जो चाहते हैं

3:37

विवरण वे एक निःशुल्क पूर्व-प्रशिक्षित वीजीजी का उपयोग करते हैं

3:40

इमेजनेट पर मॉडल इतना छोटा है

3:42

आज के सुपर . की तुलना में नेटवर्क

3:44

सटीक और तेजी से उत्पादन करने वाले परिणाम जैसे

3:47

इसे एक विभाजन मानचित्र कहा जाता है

3:49

बस एक बार उनकी सभी छवियों को संसाधित करें और

3:52

मॉडल के प्रशिक्षण के लिए ये मानचित्र प्राप्त करें

3:55

फिर इस मानचित्र के साथ-साथ कैप्शन का भी उपयोग करें

3:58

उत्पन्न करने के लिए मॉडल को उन्मुख करने के लिए

4:00

प्रारंभिक छवि अनुमान के समय या कब

4:02

हम में से कोई एक इसका इस्तेमाल करेगा हमारा स्केच होगा

4:05

उन नक्शों को बदलें जैसा कि मैंने कहा था कि उन्होंने a . का उपयोग किया है

4:08

नकली स्केच बनाने के लिए मॉडल ने वीजीजी को बुलाया

4:11

प्रशिक्षण के लिए वे एक ट्रांसफार्मर का उपयोग करते हैं

4:13

छवि निर्माण के लिए वास्तुकला

4:15

प्रक्रिया जो डॉली से अलग है

4:17

और मैं आपको वीडियो देखने के लिए आमंत्रित करता हूं I

4:19

दृष्टि के लिए ट्रांसफॉर्मर का परिचय दिया

4:21

आवेदन यदि आप अधिक विवरण चाहते हैं

4:23

यह कैसे संसाधित और उत्पन्न कर सकता है

4:25

चित्र यह स्केच निर्देशित ट्रांसफार्मर है

4:28

पत्रिका के साथ मुख्य अंतर

4:30

जैसे छवि पाठ रैंकर का उपयोग न करने के साथ

4:33

पाठ और छवि जोड़े को मापने के लिए क्लिप

4:36

जिसके बारे में आप my . में भी जान सकते हैं

4:37

दैनिक वीडियो

4:39

इसके बजाय सभी एन्कोडेड टेक्स्ट और

4:41

विभाजन मानचित्र को भेजा जाता है

4:43

ट्रांसफॉर्मर मॉडल मॉडल तो

4:45

प्रासंगिक छवि टोकन उत्पन्न करता है

4:48

संबंधित द्वारा एन्कोड और डिकोड किया गया

4:50

नेटवर्क मुख्य रूप से छवि का उत्पादन करने के लिए

4:53

प्रशिक्षण के दौरान एन्कोडर का उपयोग किया जाता है

4:55

के बीच अंतर की गणना करें

4:57

निर्मित और प्रारंभिक छवि लेकिन केवल

4:59

इसे लेने के लिए डिकोडर की आवश्यकता होती है

5:01

ट्रांसफॉर्मर आउटपुट और इसे में बदलना

5:04

एक छवि

5:05

और वोइला इस प्रकार है मेटा का नया मॉडल

5:08

एक स्केच और टेक्स्ट इनपुट लेने में सक्षम है

5:11

और एक उच्च परिभाषा छवि उत्पन्न करें

5:13

इस पर अधिक नियंत्रण की अनुमति देता है

5:16

उत्कृष्ट गुणवत्ता के साथ परिणाम

5:18

और जैसा कि वे कहते हैं कि यह सिर्फ शुरुआत है

5:20

इस नए प्रकार के एआई मॉडल का

5:22

दृष्टिकोण बस दोनों में सुधार करते रहेंगे

5:24

गुणवत्ता और उपलब्धता के मामले में

5:27

जनता जो सुपर रोमांचक है कई

5:30

कलाकार पहले से ही मॉडल का उपयोग कर रहे हैं

5:32

मेटा के में वर्णित के रूप में अपने स्वयं के काम

5:34

ब्लॉग पोस्ट और मैं उत्साहित हूं जब हम

5:37

उनका भी उपयोग कर सकेंगे

5:39

दृष्टिकोण को किसी कोडिंग की आवश्यकता नहीं है

5:41

ज्ञान केवल एक अच्छा स्केचिंग हाथ और

5:43

कुछ शीघ्र इंजीनियरिंग जिसका अर्थ है

5:45

पाठ इनपुट के साथ परीक्षण और त्रुटि

5:48

फॉर्मूलेशन और इस्तेमाल किए गए शब्दों को बदलना

5:50

अलग और बेहतर परिणाम देने के लिए

5:53

बेशक यह सिर्फ का एक सिंहावलोकन था

5:55

नया एक दृश्य दृष्टिकोण बनाते हैं और मैं

5:57

जुड़ा हुआ पूरा पेपर पढ़ने के लिए आमंत्रित करें

5:59

नीचे एक संपूर्ण अवलोकन के लिए कि यह कैसे है

6:02

काम करता है मुझे आशा है कि आपको यह वीडियो पसंद आया होगा

6:04

और मैं आपसे अगले सप्ताह मिलूंगा

6:06

एक और अद्भुत पेपर

6:09

[संगीत]