, , या जैसे हाल के सभी सुपर-शक्तिशाली छवि मॉडल में क्या समानता है? उनकी उच्च कंप्यूटिंग लागत, विशाल प्रशिक्षण समय और साझा प्रचार के अलावा, वे सभी एक ही तंत्र पर आधारित हैं: प्रसार। DALLE Imagen Midjourney डिफ्यूजन मॉडल ने हाल ही में अधिकांश छवि कार्यों के लिए अत्याधुनिक परिणाम प्राप्त किए, जिसमें DALLE के साथ टेक्स्ट-टू-इमेज शामिल है, लेकिन कई अन्य छवि निर्माण-संबंधित कार्य भी हैं, जैसे इमेज इनपेंटिंग, स्टाइल ट्रांसफर या इमेज सुपर-रिज़ॉल्यूशन। लेकिन वे कैसे काम करते हैं? वीडियो में और जानें... संदर्भ ►पूरा लेख पढ़ें: https://www.louisbouchard.ai/latent-diffusion-models/ रोम्बाच, आर., ब्लैटमैन, ए., लोरेंज, डी., एस्सेर, पी. और ओमर, बी., 2022। अव्यक्त प्रसार मॉडल के साथ उच्च-रिज़ॉल्यूशन छवि संश्लेषण। में कंप्यूटर विजन और पैटर्न पर आईईईई/सीवीएफ सम्मेलन की कार्यवाही मान्यता (पीपी. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf अव्यक्त प्रसार कोड: https://github.com/CompVis/latent-diffusion ►स्थिर प्रसार कोड (एलडी पर आधारित टेक्स्ट-टू-इमेज): https://github.com/CompVis/stable-diffusion ►इसे स्वयं आज़माएं: https://huggingface.co/spaces/stabilityai/stable-diffusion वेब अनुप्रयोग: https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4 ►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/ वीडियो प्रतिलेख 0:00 सभी हाल ही में सुपर शक्तिशाली छवि क्या करते हैं 0:02 दिल्ली कल्पना या मध्य यात्रा जैसे मॉडल 0:05 उच्च कंप्यूटिंग के अलावा आम में है 0:08 भारी प्रशिक्षण समय और साझा प्रचार की लागत 0:10 वे सभी एक ही तंत्र पर आधारित हैं 0:13 हाल ही में फ्यूजन मॉडल का प्रसार 0:15 के लिए अत्याधुनिक परिणाम प्राप्त किए 0:17 पाठ से छवि सहित अधिकांश छवि कार्य 0:19 दिल्ली के साथ लेकिन कई अन्य छवि 0:21 छवि और . जैसे पीढ़ी से संबंधित कार्य 0:23 पेंटिंग स्टाइल ट्रांसफर या इमेज सुपर 0:25 संकल्प हालांकि कुछ हैं 0:27 डाउनसाइड्स वे क्रमिक रूप से काम करते हैं 0:30 पूरी छवि का अर्थ है कि दोनों 0:31 प्रशिक्षण और अनुमान के समय सुपर हैं 0:34 महंगा है इसलिए आपको सैकड़ों चाहिए 0:36 ऐसे मॉडल को प्रशिक्षित करने के लिए gpus का और क्यों 0:38 आप अपना पाने के लिए कुछ मिनट प्रतीक्षा करें 0:40 परिणाम यह कोई आश्चर्य की बात नहीं है कि केवल 0:42 Google या openai जैसी सबसे बड़ी कंपनियां 0:45 उन मॉडलों को जारी कर रहे हैं 0:47 लेकिन वे क्या हैं मैंने प्रसार को कवर किया है 0:49 कुछ वीडियो में मॉडल जो i 0:51 आपको बेहतर के लिए जाँच करने के लिए आमंत्रित करता है 0:52 समझते हैं कि वे पुनरावृत्त मॉडल हैं 0:55 जो यादृच्छिक शोर को इनपुट के रूप में लेते हैं जो 0:57 एक पाठ या एक के साथ वातानुकूलित किया जा सकता है 0:59 छवि तो यह पूरी तरह से यादृच्छिक नहीं है 1:02 इस शोर को दूर करना सीखता है 1:04 मॉडल क्या पैरामीटर सीखकर 1:06 इस शोर को समाप्त करने के लिए लागू होना चाहिए 1:08 एक अंतिम छवि के साथ तो मूल 1:10 प्रसार मॉडल एक यादृच्छिक लेंगे 1:12 छवि के आकार के साथ शोर और 1:14 तब तक और भी शोर लागू करना सीखें 1:17 हम एक वास्तविक छवि पर वापस आते हैं यह है 1:19 संभव है क्योंकि मॉडल होगा 1:21 के दौरान वास्तविक छवियों तक पहुंच 1:23 प्रशिक्षण और सीखने में सक्षम हो जाएगा 1:25 इस तरह के शोर को लागू करके सही पैरामीटर 1:27 छवि को पुनरावृत्त रूप से तब तक 1:29 पूर्ण शोर तक पहुँचता है और is 1:31 पहचानने अयोग्य 1:33 तब जब हम से संतुष्ट होते हैं 1:35 शोर हम अपनी सभी छवियों से प्राप्त करते हैं अर्थ 1:37 कि वे समान हैं और शोर उत्पन्न करते हैं 1:40 इसी तरह के वितरण से हम तैयार हैं 1:42 हमारे मॉडल का उल्टा उपयोग करने और उसे खिलाने के लिए 1:45 विपरीत क्रम में समान शोर 1:48 उपयोग की गई छवि के समान छवि की अपेक्षा करें 1:50 प्रशिक्षण के दौरान तो यहां मुख्य समस्या 1:53 क्या आप इसके साथ सीधे काम कर रहे हैं 1:54 पिक्सेल और बड़े डेटा इनपुट जैसे 1:57 चित्र देखते हैं कि हम इसे कैसे ठीक कर सकते हैं 1:59 गणना के मुद्दे को रखते हुए 2:02 दिखाए गए अनुसार परिणामों की गुणवत्ता 2:04 यहां दिल्ली से तुलना करें लेकिन पहले दें 2:07 मैं कुछ सेकंड के लिए आपको my . से मिलवाता हूँ 2:09 क्वैक पर दोस्तों इस वीडियो को प्रायोजित कर रहे हैं 2:11 जैसा कि आप निश्चित रूप से बहुमत को जानते हैं 2:13 व्यवसायों के अब एआई और एमएल . की रिपोर्ट करें 2:15 उनकी प्रक्रियाओं में गोद लेना लेकिन जटिल 2:18 मोडल परिनियोजन जैसे संचालन 2:20 प्रशिक्षण परीक्षण और सुविधा स्टोर 2:22 प्रबंधन रास्ते में आड़े आ रहा है 2:24 प्रगति एमएल मॉडल परिनियोजन में से एक है 2:26 यह सबसे जटिल प्रक्रिया है जैसे a 2:29 कठोर प्रक्रिया है कि डेटा वैज्ञानिक 2:31 टीमें हल करने में बहुत अधिक समय व्यतीत करती हैं 2:33 बैक-एंड और इंजीनियरिंग कार्य पहले 2:35 मॉडल को अंदर धकेलने में सक्षम होना 2:37 उत्पादन कुछ मैं व्यक्तिगत रूप से 2:39 अनुभवी इसकी भी बहुत आवश्यकता है 2:42 विभिन्न कौशल सेटों में अक्सर दो की आवश्यकता होती है 2:44 एक साथ मिलकर काम करने वाली विभिन्न टीमें 2:46 सौभाग्य से हमारे लिए क्वैक बचाता है a 2:48 पूरी तरह से प्रबंधित मंच जो एमएल . को एकीकृत करता है 2:50 इंजीनियरिंग और डेटा संचालन 2:53 चुस्त बुनियादी ढाँचा प्रदान करना 2:55 के निरंतर उत्पादन को सक्षम बनाता है 2:57 एमएल मॉडल बड़े पैमाने पर आपके पास नहीं है 2:59 सब कुछ एंड-टू-एंड करना सीखें 3:01 अब उनके लिए धन्यवाद क्वैक एम्पावर 3:04 मशीन वितरित करने के लिए संगठन 3:06 बड़े पैमाने पर उत्पादन में मॉडल सीखना 3:08 यदि आप अपने मॉडल को गति देना चाहते हैं 3:10 उत्पादन के लिए वितरण कृपया कुछ ले लो 3:12 मिनट और नीचे दिए गए पहले लिंक पर क्लिक करें 3:14 यह जांचने के लिए कि वे क्या पेशकश करते हैं क्योंकि मुझे यकीन है कि यह 3:16 किसी के लिए भी सार्थक होगा धन्यवाद 3:18 एक नज़र डालें और मुझे और मेरे का समर्थन करें 3:20 क्वैक पर दोस्त 3:23 ये शक्तिशाली प्रसार मॉडल कैसे हो सकते हैं 3:25 द्वारा कम्प्यूटेशनल रूप से कुशल बनें 3:27 उन्हें गुप्त प्रसार में बदलना 3:30 मॉडल इसका मतलब है कि रॉबिन रंबैक और 3:32 उनके सहयोगियों ने इसे लागू किया 3:34 प्रसार दृष्टिकोण जिसे हमने अभी कवर किया है 3:36 एक संकुचित छवि प्रतिनिधित्व के भीतर 3:38 छवि के बजाय स्वयं और फिर 3:41 छवि के पुनर्निर्माण के लिए काम किया ताकि वे 3:43 पिक्सेल स्थान के साथ काम नहीं कर रहे हैं या 3:45 नियमित छवियां अब ऐसे में काम कर रही हैं 3:48 संपीड़ित स्थान न केवल अनुमति देता है 3:50 अधिक कुशल और तेज पीढ़ी के रूप में 3:52 डेटा का आकार बहुत छोटा है लेकिन यह भी 3:54 विभिन्न के साथ काम करने की अनुमति देता है 3:56 तौर-तरीके क्योंकि वे एन्कोडिंग कर रहे हैं 3:58 इनपुट आप इसे किसी भी प्रकार के इनपुट को फीड कर सकते हैं 4:00 छवियों या पाठ की तरह और मॉडल होगा 4:03 इन इनपुट को उसी में एन्कोड करना सीखें 4:05 उप अंतरिक्ष कि प्रसार मॉडल होगा 4:07 एक छवि उत्पन्न करने के लिए उपयोग करें तो हाँ बस 4:10 क्लिप मॉडल की तरह एक मॉडल काम करेगा 4:13 पीढ़ियों का मार्गदर्शन करने के लिए पाठ या छवियों के साथ 4:16 समग्र मॉडल इस तरह दिखेगा 4:18 आपकी प्रारंभिक छवि यहाँ होगी x 4:21 और फिर इसे एक जानकारी में एन्कोड करें 4:23 अंतरिक्ष को गुप्त स्थान या z यह कहा जाता है 4:26 एक बंदूक के समान है जहाँ आप करेंगे 4:29 छवि लेने के लिए एक एन्कोडर मॉडल का उपयोग करें 4:31 और सबसे प्रासंगिक निकालें 4:32 एक उप-स्थान में इसके बारे में जानकारी जो 4:35 आप एक डाउन सैंपलिंग कार्य के रूप में देख सकते हैं 4:37 जितना रखते हुए उसका आकार कम करना 4:39 जितनी संभव हो उतनी जानकारी अब आप में हैं 4:42 आपके संघनित के साथ गुप्त स्थान 4:44 आप इनपुट करें तो वही काम करें 4:46 आपकी स्थिति या तो टेक्स्ट इमेज इनपुट करती है 4:49 या कुछ और और उनके साथ विलय करें 4:50 आपका वर्तमान छवि प्रतिनिधित्व . का उपयोग कर 4:53 ध्यान जो मैंने दूसरे में वर्णित किया है 4:55 वीडियो यह ध्यान तंत्र होगा 4:57 इनपुट को संयोजित करने का सबसे अच्छा तरीका सीखें 4:59 और इस अव्यक्त में कंडीशनिंग इनपुट 5:01 एक ट्रांसफॉर्मर ध्यान जोड़ने वाला स्थान 5:04 इन मर्ज किए गए मॉडल को फैलाने की सुविधा 5:07 इनपुट अब आपका प्रारंभिक शोर है 5:09 प्रसार प्रक्रिया 5:11 तो आपके पास एक ही प्रसार मॉडल है i 5:13 मेरी छवि और वीडियो में शामिल है लेकिन फिर भी 5:16 इस उप-स्थान में अंत में आप पुनर्निर्माण करते हैं 5:19 एक डिकोडर का उपयोग करके छवि जो आप कर सकते हैं 5:21 अपने आद्याक्षर के विपरीत चरण के रूप में देखें 5:23 एन्कोडर इसे संशोधित कर रहा है और 5:25 अव्यक्त स्थान में अस्वीकृत इनपुट to 5:28 अंतिम उच्च रिज़ॉल्यूशन छवि का निर्माण करें 5:31 मूल रूप से आपके परिणामों को अपसैंपलिंग करना और 5:34 वोइला यह है कि आप प्रसार का उपयोग कैसे कर सकते हैं 5:36 जैसे कार्यों की एक विस्तृत विविधता के लिए मॉडल 5:39 पेंटिंग में सुपर रेजोल्यूशन और यहां तक कि 5:41 हाल ही में स्थिर के साथ छवि के लिए पाठ 5:44 प्रसार खुला स्रोत मॉडल के माध्यम से 5:46 अधिक होने पर कंडीशनिंग प्रक्रिया 5:49 अधिक कुशल और आपको चलाने की अनुमति देता है 5:51 आवश्यकता के बजाय उन्हें अपने gpus पर 5:54 उनमें से सैकड़ों आपने सही सुना 5:56 वहाँ के सभी देवों के लिए जो चाहते हैं 5:58 छवि और छवि के लिए उनका अपना पाठ 6:00 संश्लेषण मॉडल अपने आप चल रहा है 6:02 gpus कोड के साथ उपलब्ध है 6:04 प्री-टर्न मॉडल सभी लिंक हैं 6:06 नीचे यदि आप मॉडल का उपयोग करते हैं तो कृपया 6:08 अपने परीक्षण आईडी और परिणाम साझा करें या कोई भी 6:10 आपके पास मेरे साथ प्रतिक्रिया है, मुझे अच्छा लगेगा 6:13 इसके बारे में बात करें बेशक यह बस था 6:15 अव्यक्त प्रसार का एक सिंहावलोकन 6:17 मॉडल और मैं आपको उनके पढ़ने के लिए आमंत्रित करता हूं 6:19 महान पेपर नीचे भी जुड़ा हुआ है 6:21 मॉडल और दृष्टिकोण के बारे में अधिक जानें 6:24 क्वैक फॉर में मेरे दोस्तों को बहुत-बहुत धन्यवाद 6:26 इस वीडियो को प्रायोजित करना और इससे भी बड़ा 6:28 पूरा देखने के लिए धन्यवाद 6:30 वीडियो मैं आपको अगले सप्ताह के साथ देखूंगा 6:33 एक और अद्भुत पेपर