अगर आपको लगता है कि दल के अच्छे परिणाम हैं, तब तक प्रतीक्षा करें जब तक आप यह न देख लें कि Google ब्रेन का यह नया मॉडल क्या कर सकता है। -ई 2 डैले-ए अद्भुत है, लेकिन इसमें अक्सर यथार्थवाद का अभाव होता है, और यही टीम ने इमेजेन नामक इस नए मॉडल के साथ हमला किया। वे अपने प्रोजेक्ट पेज के साथ-साथ एक बेंचमार्क पर बहुत सारे परिणाम साझा करते हैं, जिसे उन्होंने टेक्स्ट-टू-इमेज मॉडल की तुलना करने के लिए पेश किया, जहां वे स्पष्ट रूप से और पिछले छवि निर्माण दृष्टिकोणों से बेहतर प्रदर्शन करते हैं। वीडियो में और जानें... Dall-E 2 संदर्भ ►पूरा लेख पढ़ें: पेपर: सहरिया एट अल।, 2022, इमेजन - गूगल ब्रेन, प्रोजेक्ट लिंक: ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/google-brain-imagen/ https://gweb-research-imagen.appspot.com/paper.pdf https://gweb-research-imagen.appspot.com/ https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 अगर आपको लगता है कि दली 2 के अच्छे परिणाम थे 0:02 प्रतीक्षा करें जब तक आप देखें कि यह नया मॉडल क्या है 0:04 गूगल ब्रेन से दिल्ली क्या कर सकते हैं 0:07 अद्भुत लेकिन अक्सर यथार्थवाद की कमी होती है और यह 0:10 टीम ने इस नए के साथ क्या हमला किया है 0:12 मॉडल जिसे इमोजन कहा जाता है, वे बहुत कुछ साझा करते हैं 0:14 उनके प्रोजेक्ट पेज पर भी परिणाम 0:16 एक बेंचमार्क जिसके लिए उन्होंने पेश किया 0:18 छवि मॉडल के लिए पाठ की तुलना करना जहां 0:20 उन्होंने स्पष्ट रूप से दैनिक2 और . से बेहतर प्रदर्शन किया 0:23 पिछली छवि निर्माण दृष्टिकोण 0:25 हम की तरह यह बेंचमार्क भी सुपर कूल है 0:27 छवि मॉडल के लिए अधिक से अधिक टेक्स्ट देखें 0:29 और इसकी तुलना करना काफी मुश्किल है 0:31 परिणाम जब तक हम मान लें कि परिणाम हैं 0:34 वास्तव में बुरा जो हम अक्सर करते हैं लेकिन यह 0:36 मॉडल और le2 ने निश्चित रूप से बाधाओं को टाल दिया 0:40 tldr यह एक नया टेक्स्ट-टू-इमेज मॉडल है जो 0:43 आप दली से और अधिक के साथ तुलना कर सकते हैं 0:45 मानव परीक्षकों के अनुसार यथार्थवाद इतना न्यायपूर्ण 0:48 डाली की तरह जिसे मैंने कवर भी नहीं किया a 0:50 महीने पहले यह मॉडल a . जैसे टेक्स्ट लेता है 0:53 गोल्डन रिट्रीवर कुत्ता नीला पहने हुए 0:56 चेकर्ड बैरेट और एक लाल बिंदीदार 0:58 टर्टलनेक और a . उत्पन्न करने का प्रयास करता है 1:00 इस अजीब में से फोटोरिअलिस्टिक छवि 1:02 वाक्य यहाँ मुख्य बिंदु यह है कि 1:05 इमोजेन न केवल टेक्स्ट को समझ सकता है बल्कि 1:08 यह छवियों को भी समझ सकता है 1:10 उत्पन्न करता है क्योंकि वे अधिक यथार्थवादी हैं 1:12 पाठ्यक्रम के सभी पिछले दृष्टिकोणों की तुलना में 1:15 जब मैं कहता हूं समझो मेरा मतलब है अपना 1:17 इस तरह की समझ वास्तव में है 1:20 हमारे से अलग मोडल नहीं करता है 1:22 वास्तव में पाठ या छवि को समझें 1:24 यह उत्पन्न करता है यह निश्चित रूप से किसी प्रकार का है 1:27 इसके बारे में ज्ञान लेकिन यह मुख्य रूप से 1:28 समझता है कि कैसे इस विशेष प्रकार का 1:31 इन वस्तुओं के साथ वाक्य होना चाहिए 1:33 एक छवि पर पिक्सेल का उपयोग करके दर्शाया गया है लेकिन 1:36 मैं मानता हूँ कि यह निश्चित रूप से ऐसा दिखता है 1:38 जब हम देखते हैं तो समझते हैं कि हम इसे क्या भेजते हैं 1:41 वे परिणाम स्पष्ट रूप से आप इसे बरगला सकते हैं 1:43 कुछ वाकई अजीब वाक्यों के साथ 1:45 इस तरह यथार्थवादी नहीं दिख सकता 1:48 पर कभी कभी अपनों को भी पछाड़ देता है 1:50 कल्पना और बस कुछ बनाता है 1:53 आश्चर्यजनक अभी भी और भी आश्चर्यजनक क्या है 1:56 यह है कि यह किसी ऐसी चीज़ का उपयोग करके कैसे काम करता है जो मैं कभी नहीं करता 1:58 चैनल पर चर्चा एक प्रसार 2:00 मॉडल लेकिन इस प्रसार का उपयोग करने से पहले 2:03 मॉडल हमें पहले समझने की जरूरत है 2:05 पाठ इनपुट और यह भी मुख्य है 2:07 डाली के साथ अंतर उन्होंने एक बहुत बड़ा इस्तेमाल किया 2:10 समझने के लिए gpt3 के समान टेक्स्ट मॉडल 2:13 एआई सिस्टम के रूप में सबसे अच्छा पाठ ऐसा कर सकता है 2:16 साथ में एक टेक्स्ट मॉडल को प्रशिक्षित करने के बजाय 2:18 छवि निर्माण मॉडल के साथ वे 2:21 बस एक बड़े पूर्व-प्रशिक्षित मॉडल का उपयोग करें और 2:23 इसे फ्रीज करें ताकि यह न बदले 2:25 छवि के प्रशिक्षण के दौरान 2:27 उनके अध्ययन से पीढ़ी मॉडल यह 2:30 बहुत बेहतर परिणाम मिले और ऐसा लग रहा था 2:32 जैसे मॉडल ने टेक्स्ट को बेहतर ढंग से समझा इसलिए 2:35 यह पाठ मॉड्यूल इस प्रकार है कि मॉडल 2:37 पाठ और इस समझ को समझता है 2:40 जिसे हम एनकोडिंग कहते हैं, उसमें दर्शाया जाता है 2:42 जो कि मॉडल को प्रशिक्षित किया गया है 2:44 टेक्स्ट ट्रांसफर करने के लिए विशाल डेटासेट पर करने के लिए 2:47 सूचना के स्थान में इनपुट जो 2:50 यह उपयोग और समझ सकता है 2:52 अब हमें इस ट्रांसफॉर्म टेक्स्ट का उपयोग करने की आवश्यकता है 2:54 छवि उत्पन्न करने के लिए डेटा और जैसा कि मैंने कहा 2:57 उन्होंने हासिल करने के लिए एक प्रसार मॉडल का इस्तेमाल किया 3:00 वह लेकिन एक प्रसार मॉडल क्या है 3:02 प्रसार मॉडल जनरेटिव मॉडल हैं 3:04 जो यादृच्छिक गाऊसी शोर को परिवर्तित करता है जैसे 3:07 यह कैसे करना सीखकर छवियों में 3:10 गाऊसी शोर को पुनरावृत्त रूप से उलट दें 3:13 सुपर रिज़ॉल्यूशन के लिए शक्तिशाली मॉडल हैं 3:15 या छवि अनुवाद के लिए अन्य छवि और 3:18 इस मामले में एक संशोधित इकाई का उपयोग करें 3:20 वास्तुकला जिसे मैंने कई कवर किया है 3:22 पिछले वीडियो में कई बार तो मैं नहीं करूंगा 3:24 वास्तु विवरण दर्ज करें 3:26 यहाँ मूल रूप से मॉडल को प्रशिक्षित किया जाता है 3:29 शुद्ध शोर से एक छवि को नकारें जो 3:31 पाठ एन्कोडिंग का उपयोग कर ओरिएंट और 3:34 क्लासिफायर फ्री नामक एक तकनीक 3:36 मार्गदर्शन जो वे कहते हैं वह आवश्यक है और 3:38 उनके पेपर में स्पष्ट रूप से समझाया गया है I 3:40 अधिक जानकारी के लिए आप इसे पढ़ें 3:42 यह तकनीक तो अब हमारे पास एक मॉडल है 3:45 यादृच्छिक गाऊसी शोर लेने में सक्षम और 3:47 हमारे टेक्स्ट एन्कोडिंग और इसे निरूपित करें 3:49 करने के लिए पाठ एन्कोडिंग से मार्गदर्शन 3:51 हमारी छवि बनाएं लेकिन जैसा कि आप यहां देख रहे हैं 3:54 यह उतना आसान नहीं है जितना यह लगता है 3:56 हमारे द्वारा अभी बनाई गई छवि बहुत छोटी है 3:58 एक बड़ी छवि के रूप में छवि की आवश्यकता होगी 4:00 बहुत अधिक गणना और एक बहुत बड़ा 4:02 मॉडल जो व्यवहार्य नहीं हैं इसके बजाय हम 4:05 पहले एक फोटोरिअलिस्टिक छवि उत्पन्न करें 4:07 प्रसार मॉडल का उपयोग करके हम बस 4:09 चर्चा की और फिर अन्य प्रसार का उपयोग करें 4:12 की गुणवत्ता में सुधार के लिए मॉडल 4:14 छवि पुनरावृत्त रूप से मैंने पहले ही कवर कर लिया है 4:16 पिछले वीडियो में सुपर रिज़ॉल्यूशन मॉडल 4:19 इसलिए मैं यहां विवरण में प्रवेश नहीं करूंगा 4:21 लेकिन आइए एक बार फिर से एक त्वरित अवलोकन करें 4:24 हम शोर करना चाहते हैं, छवि नहीं 4:26 इसलिए हम इसे शुरू में उत्पन्न करते हैं 4:28 फिर से कुछ के साथ कम संकल्प छवि 4:31 गाऊसी शोर और हम अपने दूसरे को प्रशिक्षित करते हैं 4:33 इसे संशोधित करने के लिए प्रसार मॉडल 4:35 छवि और इसे सुधारें तो हम दोहराते हैं 4:38 दूसरे मॉडल के साथ ये दो चरण लेकिन 4:40 इस बार के सिर्फ पैच का उपयोग कर 4:43 करने के लिए पूरी छवि के बजाय छवि 4:45 एक ही upscaling अनुपात और रहने 4:47 कम्प्यूटेशनल रूप से व्यवहार्य और वॉयला हम समाप्त करते हैं 4:51 हमारे फोटोरिअलिस्टिक हाई के साथ 4:53 संकल्प छवि 4:55 बेशक यह सिर्फ का एक सिंहावलोकन था 4:56 यह रोमांचक नया मॉडल वास्तव में अच्छा है 4:59 परिणाम मैं निश्चित रूप से आपको पढ़ने के लिए आमंत्रित करता हूं 5:01 एक गहरी . के लिए उनके महान कागज 5:03 उनके दृष्टिकोण की समझ और a 5:05 विस्तृत परिणाम विश्लेषण 5:07 और क्या आपको लगता है कि परिणाम हैं 5:09 दिल्ली की तुलना में क्या वे भी बेहतर हैं 5:12 या इससे भी बदतर मुझे यकीन है कि यह डेली का मुख्य है 5:15 प्रतियोगी अब तक मुझे बताएं कि क्या 5:17 आप इस नए Google दिमाग के बारे में सोचते हैं 5:19 प्रकाशन और स्पष्टीकरण मुझे आशा है 5:21 आपने इस वीडियो का आनंद लिया और यदि आपने किया 5:24 कृपया एक सेकंड के लिए एक लाइक छोड़ें और 5:26 अप टू डेट रहने के लिए सब्सक्राइब करें 5:27 रोमांचक एआई समाचार यदि आपने सदस्यता ली है तो i 5:30 अगले हफ्ते दूसरे के साथ मिलेंगे अद्भुत कागज