अगर आपको लगता है कि दल के अच्छे परिणाम हैं, तब तक प्रतीक्षा करें जब तक आप यह न देख लें कि Google ब्रेन का यह नया मॉडल क्या कर सकता है।
डैले-ए अद्भुत है, लेकिन इसमें अक्सर यथार्थवाद का अभाव होता है, और यही टीम ने इमेजेन नामक इस नए मॉडल के साथ हमला किया।
वे अपने प्रोजेक्ट पेज के साथ-साथ एक बेंचमार्क पर बहुत सारे परिणाम साझा करते हैं, जिसे उन्होंने टेक्स्ट-टू-इमेज मॉडल की तुलना करने के लिए पेश किया, जहां वे स्पष्ट रूप से और पिछले छवि निर्माण दृष्टिकोणों से बेहतर प्रदर्शन करते हैं। वीडियो में और जानें...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/google-brain-imagen/
पेपर: सहरिया एट अल।, 2022, इमेजन - गूगल ब्रेन, https://gweb-research-imagen.appspot.com/paper.pdf
प्रोजेक्ट लिंक: https://gweb-research-imagen.appspot.com/
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
अगर आपको लगता है कि दली 2 के अच्छे परिणाम थे
0:02
प्रतीक्षा करें जब तक आप देखें कि यह नया मॉडल क्या है
0:04
गूगल ब्रेन से दिल्ली क्या कर सकते हैं
0:07
अद्भुत लेकिन अक्सर यथार्थवाद की कमी होती है और यह
0:10
टीम ने इस नए के साथ क्या हमला किया है
0:12
मॉडल जिसे इमोजन कहा जाता है, वे बहुत कुछ साझा करते हैं
0:14
उनके प्रोजेक्ट पेज पर भी परिणाम
0:16
एक बेंचमार्क जिसके लिए उन्होंने पेश किया
0:18
छवि मॉडल के लिए पाठ की तुलना करना जहां
0:20
उन्होंने स्पष्ट रूप से दैनिक2 और . से बेहतर प्रदर्शन किया
0:23
पिछली छवि निर्माण दृष्टिकोण
0:25
हम की तरह यह बेंचमार्क भी सुपर कूल है
0:27
छवि मॉडल के लिए अधिक से अधिक टेक्स्ट देखें
0:29
और इसकी तुलना करना काफी मुश्किल है
0:31
परिणाम जब तक हम मान लें कि परिणाम हैं
0:34
वास्तव में बुरा जो हम अक्सर करते हैं लेकिन यह
0:36
मॉडल और le2 ने निश्चित रूप से बाधाओं को टाल दिया
0:40
tldr यह एक नया टेक्स्ट-टू-इमेज मॉडल है जो
0:43
आप दली से और अधिक के साथ तुलना कर सकते हैं
0:45
मानव परीक्षकों के अनुसार यथार्थवाद इतना न्यायपूर्ण
0:48
डाली की तरह जिसे मैंने कवर भी नहीं किया a
0:50
महीने पहले यह मॉडल a . जैसे टेक्स्ट लेता है
0:53
गोल्डन रिट्रीवर कुत्ता नीला पहने हुए
0:56
चेकर्ड बैरेट और एक लाल बिंदीदार
0:58
टर्टलनेक और a . उत्पन्न करने का प्रयास करता है
1:00
इस अजीब में से फोटोरिअलिस्टिक छवि
1:02
वाक्य यहाँ मुख्य बिंदु यह है कि
1:05
इमोजेन न केवल टेक्स्ट को समझ सकता है बल्कि
1:08
यह छवियों को भी समझ सकता है
1:10
उत्पन्न करता है क्योंकि वे अधिक यथार्थवादी हैं
1:12
पाठ्यक्रम के सभी पिछले दृष्टिकोणों की तुलना में
1:15
जब मैं कहता हूं समझो मेरा मतलब है अपना
1:17
इस तरह की समझ वास्तव में है
1:20
हमारे से अलग मोडल नहीं करता है
1:22
वास्तव में पाठ या छवि को समझें
1:24
यह उत्पन्न करता है यह निश्चित रूप से किसी प्रकार का है
1:27
इसके बारे में ज्ञान लेकिन यह मुख्य रूप से
1:28
समझता है कि कैसे इस विशेष प्रकार का
1:31
इन वस्तुओं के साथ वाक्य होना चाहिए
1:33
एक छवि पर पिक्सेल का उपयोग करके दर्शाया गया है लेकिन
1:36
मैं मानता हूँ कि यह निश्चित रूप से ऐसा दिखता है
1:38
जब हम देखते हैं तो समझते हैं कि हम इसे क्या भेजते हैं
1:41
वे परिणाम स्पष्ट रूप से आप इसे बरगला सकते हैं
1:43
कुछ वाकई अजीब वाक्यों के साथ
1:45
इस तरह यथार्थवादी नहीं दिख सकता
1:48
पर कभी कभी अपनों को भी पछाड़ देता है
1:50
कल्पना और बस कुछ बनाता है
1:53
आश्चर्यजनक अभी भी और भी आश्चर्यजनक क्या है
1:56
यह है कि यह किसी ऐसी चीज़ का उपयोग करके कैसे काम करता है जो मैं कभी नहीं करता
1:58
चैनल पर चर्चा एक प्रसार
2:00
मॉडल लेकिन इस प्रसार का उपयोग करने से पहले
2:03
मॉडल हमें पहले समझने की जरूरत है
2:05
पाठ इनपुट और यह भी मुख्य है
2:07
डाली के साथ अंतर उन्होंने एक बहुत बड़ा इस्तेमाल किया
2:10
समझने के लिए gpt3 के समान टेक्स्ट मॉडल
2:13
एआई सिस्टम के रूप में सबसे अच्छा पाठ ऐसा कर सकता है
2:16
साथ में एक टेक्स्ट मॉडल को प्रशिक्षित करने के बजाय
2:18
छवि निर्माण मॉडल के साथ वे
2:21
बस एक बड़े पूर्व-प्रशिक्षित मॉडल का उपयोग करें और
2:23
इसे फ्रीज करें ताकि यह न बदले
2:25
छवि के प्रशिक्षण के दौरान
2:27
उनके अध्ययन से पीढ़ी मॉडल यह
2:30
बहुत बेहतर परिणाम मिले और ऐसा लग रहा था
2:32
जैसे मॉडल ने टेक्स्ट को बेहतर ढंग से समझा इसलिए
2:35
यह पाठ मॉड्यूल इस प्रकार है कि मॉडल
2:37
पाठ और इस समझ को समझता है
2:40
जिसे हम एनकोडिंग कहते हैं, उसमें दर्शाया जाता है
2:42
जो कि मॉडल को प्रशिक्षित किया गया है
2:44
टेक्स्ट ट्रांसफर करने के लिए विशाल डेटासेट पर करने के लिए
2:47
सूचना के स्थान में इनपुट जो
2:50
यह उपयोग और समझ सकता है
2:52
अब हमें इस ट्रांसफॉर्म टेक्स्ट का उपयोग करने की आवश्यकता है
2:54
छवि उत्पन्न करने के लिए डेटा और जैसा कि मैंने कहा
2:57
उन्होंने हासिल करने के लिए एक प्रसार मॉडल का इस्तेमाल किया
3:00
वह लेकिन एक प्रसार मॉडल क्या है
3:02
प्रसार मॉडल जनरेटिव मॉडल हैं
3:04
जो यादृच्छिक गाऊसी शोर को परिवर्तित करता है जैसे
3:07
यह कैसे करना सीखकर छवियों में
3:10
गाऊसी शोर को पुनरावृत्त रूप से उलट दें
3:13
सुपर रिज़ॉल्यूशन के लिए शक्तिशाली मॉडल हैं
3:15
या छवि अनुवाद के लिए अन्य छवि और
3:18
इस मामले में एक संशोधित इकाई का उपयोग करें
3:20
वास्तुकला जिसे मैंने कई कवर किया है
3:22
पिछले वीडियो में कई बार तो मैं नहीं करूंगा
3:24
वास्तु विवरण दर्ज करें
3:26
यहाँ मूल रूप से मॉडल को प्रशिक्षित किया जाता है
3:29
शुद्ध शोर से एक छवि को नकारें जो
3:31
पाठ एन्कोडिंग का उपयोग कर ओरिएंट और
3:34
क्लासिफायर फ्री नामक एक तकनीक
3:36
मार्गदर्शन जो वे कहते हैं वह आवश्यक है और
3:38
उनके पेपर में स्पष्ट रूप से समझाया गया है I
3:40
अधिक जानकारी के लिए आप इसे पढ़ें
3:42
यह तकनीक तो अब हमारे पास एक मॉडल है
3:45
यादृच्छिक गाऊसी शोर लेने में सक्षम और
3:47
हमारे टेक्स्ट एन्कोडिंग और इसे निरूपित करें
3:49
करने के लिए पाठ एन्कोडिंग से मार्गदर्शन
3:51
हमारी छवि बनाएं लेकिन जैसा कि आप यहां देख रहे हैं
3:54
यह उतना आसान नहीं है जितना यह लगता है
3:56
हमारे द्वारा अभी बनाई गई छवि बहुत छोटी है
3:58
एक बड़ी छवि के रूप में छवि की आवश्यकता होगी
4:00
बहुत अधिक गणना और एक बहुत बड़ा
4:02
मॉडल जो व्यवहार्य नहीं हैं इसके बजाय हम
4:05
पहले एक फोटोरिअलिस्टिक छवि उत्पन्न करें
4:07
प्रसार मॉडल का उपयोग करके हम बस
4:09
चर्चा की और फिर अन्य प्रसार का उपयोग करें
4:12
की गुणवत्ता में सुधार के लिए मॉडल
4:14
छवि पुनरावृत्त रूप से मैंने पहले ही कवर कर लिया है
4:16
पिछले वीडियो में सुपर रिज़ॉल्यूशन मॉडल
4:19
इसलिए मैं यहां विवरण में प्रवेश नहीं करूंगा
4:21
लेकिन आइए एक बार फिर से एक त्वरित अवलोकन करें
4:24
हम शोर करना चाहते हैं, छवि नहीं
4:26
इसलिए हम इसे शुरू में उत्पन्न करते हैं
4:28
फिर से कुछ के साथ कम संकल्प छवि
4:31
गाऊसी शोर और हम अपने दूसरे को प्रशिक्षित करते हैं
4:33
इसे संशोधित करने के लिए प्रसार मॉडल
4:35
छवि और इसे सुधारें तो हम दोहराते हैं
4:38
दूसरे मॉडल के साथ ये दो चरण लेकिन
4:40
इस बार के सिर्फ पैच का उपयोग कर
4:43
करने के लिए पूरी छवि के बजाय छवि
4:45
एक ही upscaling अनुपात और रहने
4:47
कम्प्यूटेशनल रूप से व्यवहार्य और वॉयला हम समाप्त करते हैं
4:51
हमारे फोटोरिअलिस्टिक हाई के साथ
4:53
संकल्प छवि
4:55
बेशक यह सिर्फ का एक सिंहावलोकन था
4:56
यह रोमांचक नया मॉडल वास्तव में अच्छा है
4:59
परिणाम मैं निश्चित रूप से आपको पढ़ने के लिए आमंत्रित करता हूं
5:01
एक गहरी . के लिए उनके महान कागज
5:03
उनके दृष्टिकोण की समझ और a
5:05
विस्तृत परिणाम विश्लेषण
5:07
और क्या आपको लगता है कि परिणाम हैं
5:09
दिल्ली की तुलना में क्या वे भी बेहतर हैं
5:12
या इससे भी बदतर मुझे यकीन है कि यह डेली का मुख्य है
5:15
प्रतियोगी अब तक मुझे बताएं कि क्या
5:17
आप इस नए Google दिमाग के बारे में सोचते हैं
5:19
प्रकाशन और स्पष्टीकरण मुझे आशा है
5:21
आपने इस वीडियो का आनंद लिया और यदि आपने किया
5:24
कृपया एक सेकंड के लिए एक लाइक छोड़ें और
5:26
अप टू डेट रहने के लिए सब्सक्राइब करें
5:27
रोमांचक एआई समाचार यदि आपने सदस्यता ली है तो i
5:30
अगले हफ्ते दूसरे के साथ मिलेंगे
अद्भुत कागज