paint-brush
Google ब्रेन का नया मॉडल इमेजन Dall-E 2 से भी अधिक प्रभावशाली हैद्वारा@whatsai
3,159 रीडिंग
3,159 रीडिंग

Google ब्रेन का नया मॉडल इमेजन Dall-E 2 से भी अधिक प्रभावशाली है

द्वारा Louis Bouchard4m2022/05/24
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

अगर आपको लगता है कि दल-ई 2 के अच्छे परिणाम हैं, तब तक प्रतीक्षा करें जब तक आप यह न देख लें कि Google ब्रेन का यह नया मॉडल क्या कर सकता है। Dalle-e अद्भुत है, लेकिन इसमें अक्सर यथार्थवाद का अभाव होता है, और यही टीम ने इमेजेन नामक एक नए मॉडल के साथ हमला किया। इमेजेन न केवल टेक्स्ट को समझ सकता है, बल्कि इमेज को भी समझ सकता है, यह उसके द्वारा जेनरेट की गई इमेज को भी समझ सकता है। वीडियो में और जानें...  पूरा लेख पढ़ें: https://www.louisbouchard.ai/Google-brain-imagen/

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Google ब्रेन का नया मॉडल इमेजन Dall-E 2 से भी अधिक प्रभावशाली है
Louis Bouchard HackerNoon profile picture

अगर आपको लगता है कि दल के अच्छे परिणाम हैं, तब तक प्रतीक्षा करें जब तक आप यह न देख लें कि Google ब्रेन का यह नया मॉडल क्या कर सकता है।

डैले-ए अद्भुत है, लेकिन इसमें अक्सर यथार्थवाद का अभाव होता है, और यही टीम ने इमेजेन नामक इस नए मॉडल के साथ हमला किया।

वे अपने प्रोजेक्ट पेज के साथ-साथ एक बेंचमार्क पर बहुत सारे परिणाम साझा करते हैं, जिसे उन्होंने टेक्स्ट-टू-इमेज मॉडल की तुलना करने के लिए पेश किया, जहां वे स्पष्ट रूप से और पिछले छवि निर्माण दृष्टिकोणों से बेहतर प्रदर्शन करते हैं। वीडियो में और जानें...

संदर्भ

►पूरा लेख पढ़ें: https://www.louisbouchard.ai/google-brain-imagen/
पेपर: सहरिया एट अल।, 2022, इमेजन - गूगल ब्रेन, https://gweb-research-imagen.appspot.com/paper.pdf
प्रोजेक्ट लिंक: https://gweb-research-imagen.appspot.com/
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

अगर आपको लगता है कि दली 2 के अच्छे परिणाम थे

0:02

प्रतीक्षा करें जब तक आप देखें कि यह नया मॉडल क्या है

0:04

गूगल ब्रेन से दिल्ली क्या कर सकते हैं

0:07

अद्भुत लेकिन अक्सर यथार्थवाद की कमी होती है और यह

0:10

टीम ने इस नए के साथ क्या हमला किया है

0:12

मॉडल जिसे इमोजन कहा जाता है, वे बहुत कुछ साझा करते हैं

0:14

उनके प्रोजेक्ट पेज पर भी परिणाम

0:16

एक बेंचमार्क जिसके लिए उन्होंने पेश किया

0:18

छवि मॉडल के लिए पाठ की तुलना करना जहां

0:20

उन्होंने स्पष्ट रूप से दैनिक2 और . से बेहतर प्रदर्शन किया

0:23

पिछली छवि निर्माण दृष्टिकोण

0:25

हम की तरह यह बेंचमार्क भी सुपर कूल है

0:27

छवि मॉडल के लिए अधिक से अधिक टेक्स्ट देखें

0:29

और इसकी तुलना करना काफी मुश्किल है

0:31

परिणाम जब तक हम मान लें कि परिणाम हैं

0:34

वास्तव में बुरा जो हम अक्सर करते हैं लेकिन यह

0:36

मॉडल और le2 ने निश्चित रूप से बाधाओं को टाल दिया

0:40

tldr यह एक नया टेक्स्ट-टू-इमेज मॉडल है जो

0:43

आप दली से और अधिक के साथ तुलना कर सकते हैं

0:45

मानव परीक्षकों के अनुसार यथार्थवाद इतना न्यायपूर्ण

0:48

डाली की तरह जिसे मैंने कवर भी नहीं किया a

0:50

महीने पहले यह मॉडल a . जैसे टेक्स्ट लेता है

0:53

गोल्डन रिट्रीवर कुत्ता नीला पहने हुए

0:56

चेकर्ड बैरेट और एक लाल बिंदीदार

0:58

टर्टलनेक और a . उत्पन्न करने का प्रयास करता है

1:00

इस अजीब में से फोटोरिअलिस्टिक छवि

1:02

वाक्य यहाँ मुख्य बिंदु यह है कि

1:05

इमोजेन न केवल टेक्स्ट को समझ सकता है बल्कि

1:08

यह छवियों को भी समझ सकता है

1:10

उत्पन्न करता है क्योंकि वे अधिक यथार्थवादी हैं

1:12

पाठ्यक्रम के सभी पिछले दृष्टिकोणों की तुलना में

1:15

जब मैं कहता हूं समझो मेरा मतलब है अपना

1:17

इस तरह की समझ वास्तव में है

1:20

हमारे से अलग मोडल नहीं करता है

1:22

वास्तव में पाठ या छवि को समझें

1:24

यह उत्पन्न करता है यह निश्चित रूप से किसी प्रकार का है

1:27

इसके बारे में ज्ञान लेकिन यह मुख्य रूप से

1:28

समझता है कि कैसे इस विशेष प्रकार का

1:31

इन वस्तुओं के साथ वाक्य होना चाहिए

1:33

एक छवि पर पिक्सेल का उपयोग करके दर्शाया गया है लेकिन

1:36

मैं मानता हूँ कि यह निश्चित रूप से ऐसा दिखता है

1:38

जब हम देखते हैं तो समझते हैं कि हम इसे क्या भेजते हैं

1:41

वे परिणाम स्पष्ट रूप से आप इसे बरगला सकते हैं

1:43

कुछ वाकई अजीब वाक्यों के साथ

1:45

इस तरह यथार्थवादी नहीं दिख सकता

1:48

पर कभी कभी अपनों को भी पछाड़ देता है

1:50

कल्पना और बस कुछ बनाता है

1:53

आश्चर्यजनक अभी भी और भी आश्चर्यजनक क्या है

1:56

यह है कि यह किसी ऐसी चीज़ का उपयोग करके कैसे काम करता है जो मैं कभी नहीं करता

1:58

चैनल पर चर्चा एक प्रसार

2:00

मॉडल लेकिन इस प्रसार का उपयोग करने से पहले

2:03

मॉडल हमें पहले समझने की जरूरत है

2:05

पाठ इनपुट और यह भी मुख्य है

2:07

डाली के साथ अंतर उन्होंने एक बहुत बड़ा इस्तेमाल किया

2:10

समझने के लिए gpt3 के समान टेक्स्ट मॉडल

2:13

एआई सिस्टम के रूप में सबसे अच्छा पाठ ऐसा कर सकता है

2:16

साथ में एक टेक्स्ट मॉडल को प्रशिक्षित करने के बजाय

2:18

छवि निर्माण मॉडल के साथ वे

2:21

बस एक बड़े पूर्व-प्रशिक्षित मॉडल का उपयोग करें और

2:23

इसे फ्रीज करें ताकि यह न बदले

2:25

छवि के प्रशिक्षण के दौरान

2:27

उनके अध्ययन से पीढ़ी मॉडल यह

2:30

बहुत बेहतर परिणाम मिले और ऐसा लग रहा था

2:32

जैसे मॉडल ने टेक्स्ट को बेहतर ढंग से समझा इसलिए

2:35

यह पाठ मॉड्यूल इस प्रकार है कि मॉडल

2:37

पाठ और इस समझ को समझता है

2:40

जिसे हम एनकोडिंग कहते हैं, उसमें दर्शाया जाता है

2:42

जो कि मॉडल को प्रशिक्षित किया गया है

2:44

टेक्स्ट ट्रांसफर करने के लिए विशाल डेटासेट पर करने के लिए

2:47

सूचना के स्थान में इनपुट जो

2:50

यह उपयोग और समझ सकता है

2:52

अब हमें इस ट्रांसफॉर्म टेक्स्ट का उपयोग करने की आवश्यकता है

2:54

छवि उत्पन्न करने के लिए डेटा और जैसा कि मैंने कहा

2:57

उन्होंने हासिल करने के लिए एक प्रसार मॉडल का इस्तेमाल किया

3:00

वह लेकिन एक प्रसार मॉडल क्या है

3:02

प्रसार मॉडल जनरेटिव मॉडल हैं

3:04

जो यादृच्छिक गाऊसी शोर को परिवर्तित करता है जैसे

3:07

यह कैसे करना सीखकर छवियों में

3:10

गाऊसी शोर को पुनरावृत्त रूप से उलट दें

3:13

सुपर रिज़ॉल्यूशन के लिए शक्तिशाली मॉडल हैं

3:15

या छवि अनुवाद के लिए अन्य छवि और

3:18

इस मामले में एक संशोधित इकाई का उपयोग करें

3:20

वास्तुकला जिसे मैंने कई कवर किया है

3:22

पिछले वीडियो में कई बार तो मैं नहीं करूंगा

3:24

वास्तु विवरण दर्ज करें

3:26

यहाँ मूल रूप से मॉडल को प्रशिक्षित किया जाता है

3:29

शुद्ध शोर से एक छवि को नकारें जो

3:31

पाठ एन्कोडिंग का उपयोग कर ओरिएंट और

3:34

क्लासिफायर फ्री नामक एक तकनीक

3:36

मार्गदर्शन जो वे कहते हैं वह आवश्यक है और

3:38

उनके पेपर में स्पष्ट रूप से समझाया गया है I

3:40

अधिक जानकारी के लिए आप इसे पढ़ें

3:42

यह तकनीक तो अब हमारे पास एक मॉडल है

3:45

यादृच्छिक गाऊसी शोर लेने में सक्षम और

3:47

हमारे टेक्स्ट एन्कोडिंग और इसे निरूपित करें

3:49

करने के लिए पाठ एन्कोडिंग से मार्गदर्शन

3:51

हमारी छवि बनाएं लेकिन जैसा कि आप यहां देख रहे हैं

3:54

यह उतना आसान नहीं है जितना यह लगता है

3:56

हमारे द्वारा अभी बनाई गई छवि बहुत छोटी है

3:58

एक बड़ी छवि के रूप में छवि की आवश्यकता होगी

4:00

बहुत अधिक गणना और एक बहुत बड़ा

4:02

मॉडल जो व्यवहार्य नहीं हैं इसके बजाय हम

4:05

पहले एक फोटोरिअलिस्टिक छवि उत्पन्न करें

4:07

प्रसार मॉडल का उपयोग करके हम बस

4:09

चर्चा की और फिर अन्य प्रसार का उपयोग करें

4:12

की गुणवत्ता में सुधार के लिए मॉडल

4:14

छवि पुनरावृत्त रूप से मैंने पहले ही कवर कर लिया है

4:16

पिछले वीडियो में सुपर रिज़ॉल्यूशन मॉडल

4:19

इसलिए मैं यहां विवरण में प्रवेश नहीं करूंगा

4:21

लेकिन आइए एक बार फिर से एक त्वरित अवलोकन करें

4:24

हम शोर करना चाहते हैं, छवि नहीं

4:26

इसलिए हम इसे शुरू में उत्पन्न करते हैं

4:28

फिर से कुछ के साथ कम संकल्प छवि

4:31

गाऊसी शोर और हम अपने दूसरे को प्रशिक्षित करते हैं

4:33

इसे संशोधित करने के लिए प्रसार मॉडल

4:35

छवि और इसे सुधारें तो हम दोहराते हैं

4:38

दूसरे मॉडल के साथ ये दो चरण लेकिन

4:40

इस बार के सिर्फ पैच का उपयोग कर

4:43

करने के लिए पूरी छवि के बजाय छवि

4:45

एक ही upscaling अनुपात और रहने

4:47

कम्प्यूटेशनल रूप से व्यवहार्य और वॉयला हम समाप्त करते हैं

4:51

हमारे फोटोरिअलिस्टिक हाई के साथ

4:53

संकल्प छवि

4:55

बेशक यह सिर्फ का एक सिंहावलोकन था

4:56

यह रोमांचक नया मॉडल वास्तव में अच्छा है

4:59

परिणाम मैं निश्चित रूप से आपको पढ़ने के लिए आमंत्रित करता हूं

5:01

एक गहरी . के लिए उनके महान कागज

5:03

उनके दृष्टिकोण की समझ और a

5:05

विस्तृत परिणाम विश्लेषण

5:07

और क्या आपको लगता है कि परिणाम हैं

5:09

दिल्ली की तुलना में क्या वे भी बेहतर हैं

5:12

या इससे भी बदतर मुझे यकीन है कि यह डेली का मुख्य है

5:15

प्रतियोगी अब तक मुझे बताएं कि क्या

5:17

आप इस नए Google दिमाग के बारे में सोचते हैं

5:19

प्रकाशन और स्पष्टीकरण मुझे आशा है

5:21

आपने इस वीडियो का आनंद लिया और यदि आपने किया

5:24

कृपया एक सेकंड के लिए एक लाइक छोड़ें और

5:26

अप टू डेट रहने के लिए सब्सक्राइब करें

5:27

रोमांचक एआई समाचार यदि आपने सदस्यता ली है तो i

5:30

अगले हफ्ते दूसरे के साथ मिलेंगे

अद्भुत कागज