DALLE , Imagen , या Midjourney जैसे हाल के सभी सुपर-शक्तिशाली छवि मॉडल में क्या समानता है? उनकी उच्च कंप्यूटिंग लागत, विशाल प्रशिक्षण समय और साझा प्रचार के अलावा, वे सभी एक ही तंत्र पर आधारित हैं: प्रसार।
डिफ्यूजन मॉडल ने हाल ही में अधिकांश छवि कार्यों के लिए अत्याधुनिक परिणाम प्राप्त किए, जिसमें DALLE के साथ टेक्स्ट-टू-इमेज शामिल है, लेकिन कई अन्य छवि निर्माण-संबंधित कार्य भी हैं, जैसे इमेज इनपेंटिंग, स्टाइल ट्रांसफर या इमेज सुपर-रिज़ॉल्यूशन। लेकिन वे कैसे काम करते हैं? वीडियो में और जानें...
►पूरा लेख पढ़ें: https://www.louisbouchard.ai/latent-diffusion-models/
रोम्बाच, आर., ब्लैटमैन, ए., लोरेंज, डी., एस्सेर, पी. और ओमर, बी., 2022।
अव्यक्त प्रसार मॉडल के साथ उच्च-रिज़ॉल्यूशन छवि संश्लेषण। में
कंप्यूटर विजन और पैटर्न पर आईईईई/सीवीएफ सम्मेलन की कार्यवाही
मान्यता (पीपी. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
अव्यक्त प्रसार कोड: https://github.com/CompVis/latent-diffusion
►स्थिर प्रसार कोड (एलडी पर आधारित टेक्स्ट-टू-इमेज): https://github.com/CompVis/stable-diffusion
►इसे स्वयं आज़माएं: https://huggingface.co/spaces/stabilityai/stable-diffusion
वेब अनुप्रयोग:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/
0:00
सभी हाल ही में सुपर शक्तिशाली छवि क्या करते हैं
0:02
दिल्ली कल्पना या मध्य यात्रा जैसे मॉडल
0:05
उच्च कंप्यूटिंग के अलावा आम में है
0:08
भारी प्रशिक्षण समय और साझा प्रचार की लागत
0:10
वे सभी एक ही तंत्र पर आधारित हैं
0:13
हाल ही में फ्यूजन मॉडल का प्रसार
0:15
के लिए अत्याधुनिक परिणाम प्राप्त किए
0:17
पाठ से छवि सहित अधिकांश छवि कार्य
0:19
दिल्ली के साथ लेकिन कई अन्य छवि
0:21
छवि और . जैसे पीढ़ी से संबंधित कार्य
0:23
पेंटिंग स्टाइल ट्रांसफर या इमेज सुपर
0:25
संकल्प हालांकि कुछ हैं
0:27
डाउनसाइड्स वे क्रमिक रूप से काम करते हैं
0:30
पूरी छवि का अर्थ है कि दोनों
0:31
प्रशिक्षण और अनुमान के समय सुपर हैं
0:34
महंगा है इसलिए आपको सैकड़ों चाहिए
0:36
ऐसे मॉडल को प्रशिक्षित करने के लिए gpus का और क्यों
0:38
आप अपना पाने के लिए कुछ मिनट प्रतीक्षा करें
0:40
परिणाम यह कोई आश्चर्य की बात नहीं है कि केवल
0:42
Google या openai जैसी सबसे बड़ी कंपनियां
0:45
उन मॉडलों को जारी कर रहे हैं
0:47
लेकिन वे क्या हैं मैंने प्रसार को कवर किया है
0:49
कुछ वीडियो में मॉडल जो i
0:51
आपको बेहतर के लिए जाँच करने के लिए आमंत्रित करता है
0:52
समझते हैं कि वे पुनरावृत्त मॉडल हैं
0:55
जो यादृच्छिक शोर को इनपुट के रूप में लेते हैं जो
0:57
एक पाठ या एक के साथ वातानुकूलित किया जा सकता है
0:59
छवि तो यह पूरी तरह से यादृच्छिक नहीं है
1:02
इस शोर को दूर करना सीखता है
1:04
मॉडल क्या पैरामीटर सीखकर
1:06
इस शोर को समाप्त करने के लिए लागू होना चाहिए
1:08
एक अंतिम छवि के साथ तो मूल
1:10
प्रसार मॉडल एक यादृच्छिक लेंगे
1:12
छवि के आकार के साथ शोर और
1:14
तब तक और भी शोर लागू करना सीखें
1:17
हम एक वास्तविक छवि पर वापस आते हैं यह है
1:19
संभव है क्योंकि मॉडल होगा
1:21
के दौरान वास्तविक छवियों तक पहुंच
1:23
प्रशिक्षण और सीखने में सक्षम हो जाएगा
1:25
इस तरह के शोर को लागू करके सही पैरामीटर
1:27
छवि को पुनरावृत्त रूप से तब तक
1:29
पूर्ण शोर तक पहुँचता है और is
1:31
पहचानने अयोग्य
1:33
तब जब हम से संतुष्ट होते हैं
1:35
शोर हम अपनी सभी छवियों से प्राप्त करते हैं अर्थ
1:37
कि वे समान हैं और शोर उत्पन्न करते हैं
1:40
इसी तरह के वितरण से हम तैयार हैं
1:42
हमारे मॉडल का उल्टा उपयोग करने और उसे खिलाने के लिए
1:45
विपरीत क्रम में समान शोर
1:48
उपयोग की गई छवि के समान छवि की अपेक्षा करें
1:50
प्रशिक्षण के दौरान तो यहां मुख्य समस्या
1:53
क्या आप इसके साथ सीधे काम कर रहे हैं
1:54
पिक्सेल और बड़े डेटा इनपुट जैसे
1:57
चित्र देखते हैं कि हम इसे कैसे ठीक कर सकते हैं
1:59
गणना के मुद्दे को रखते हुए
2:02
दिखाए गए अनुसार परिणामों की गुणवत्ता
2:04
यहां दिल्ली से तुलना करें लेकिन पहले दें
2:07
मैं कुछ सेकंड के लिए आपको my . से मिलवाता हूँ
2:09
क्वैक पर दोस्तों इस वीडियो को प्रायोजित कर रहे हैं
2:11
जैसा कि आप निश्चित रूप से बहुमत को जानते हैं
2:13
व्यवसायों के अब एआई और एमएल . की रिपोर्ट करें
2:15
उनकी प्रक्रियाओं में गोद लेना लेकिन जटिल
2:18
मोडल परिनियोजन जैसे संचालन
2:20
प्रशिक्षण परीक्षण और सुविधा स्टोर
2:22
प्रबंधन रास्ते में आड़े आ रहा है
2:24
प्रगति एमएल मॉडल परिनियोजन में से एक है
2:26
यह सबसे जटिल प्रक्रिया है जैसे a
2:29
कठोर प्रक्रिया है कि डेटा वैज्ञानिक
2:31
टीमें हल करने में बहुत अधिक समय व्यतीत करती हैं
2:33
बैक-एंड और इंजीनियरिंग कार्य पहले
2:35
मॉडल को अंदर धकेलने में सक्षम होना
2:37
उत्पादन कुछ मैं व्यक्तिगत रूप से
2:39
अनुभवी इसकी भी बहुत आवश्यकता है
2:42
विभिन्न कौशल सेटों में अक्सर दो की आवश्यकता होती है
2:44
एक साथ मिलकर काम करने वाली विभिन्न टीमें
2:46
सौभाग्य से हमारे लिए क्वैक बचाता है a
2:48
पूरी तरह से प्रबंधित मंच जो एमएल . को एकीकृत करता है
2:50
इंजीनियरिंग और डेटा संचालन
2:53
चुस्त बुनियादी ढाँचा प्रदान करना
2:55
के निरंतर उत्पादन को सक्षम बनाता है
2:57
एमएल मॉडल बड़े पैमाने पर आपके पास नहीं है
2:59
सब कुछ एंड-टू-एंड करना सीखें
3:01
अब उनके लिए धन्यवाद क्वैक एम्पावर
3:04
मशीन वितरित करने के लिए संगठन
3:06
बड़े पैमाने पर उत्पादन में मॉडल सीखना
3:08
यदि आप अपने मॉडल को गति देना चाहते हैं
3:10
उत्पादन के लिए वितरण कृपया कुछ ले लो
3:12
मिनट और नीचे दिए गए पहले लिंक पर क्लिक करें
3:14
यह जांचने के लिए कि वे क्या पेशकश करते हैं क्योंकि मुझे यकीन है कि यह
3:16
किसी के लिए भी सार्थक होगा धन्यवाद
3:18
एक नज़र डालें और मुझे और मेरे का समर्थन करें
3:20
क्वैक पर दोस्त
3:23
ये शक्तिशाली प्रसार मॉडल कैसे हो सकते हैं
3:25
द्वारा कम्प्यूटेशनल रूप से कुशल बनें
3:27
उन्हें गुप्त प्रसार में बदलना
3:30
मॉडल इसका मतलब है कि रॉबिन रंबैक और
3:32
उनके सहयोगियों ने इसे लागू किया
3:34
प्रसार दृष्टिकोण जिसे हमने अभी कवर किया है
3:36
एक संकुचित छवि प्रतिनिधित्व के भीतर
3:38
छवि के बजाय स्वयं और फिर
3:41
छवि के पुनर्निर्माण के लिए काम किया ताकि वे
3:43
पिक्सेल स्थान के साथ काम नहीं कर रहे हैं या
3:45
नियमित छवियां अब ऐसे में काम कर रही हैं
3:48
संपीड़ित स्थान न केवल अनुमति देता है
3:50
अधिक कुशल और तेज पीढ़ी के रूप में
3:52
डेटा का आकार बहुत छोटा है लेकिन यह भी
3:54
विभिन्न के साथ काम करने की अनुमति देता है
3:56
तौर-तरीके क्योंकि वे एन्कोडिंग कर रहे हैं
3:58
इनपुट आप इसे किसी भी प्रकार के इनपुट को फीड कर सकते हैं
4:00
छवियों या पाठ की तरह और मॉडल होगा
4:03
इन इनपुट को उसी में एन्कोड करना सीखें
4:05
उप अंतरिक्ष कि प्रसार मॉडल होगा
4:07
एक छवि उत्पन्न करने के लिए उपयोग करें तो हाँ बस
4:10
क्लिप मॉडल की तरह एक मॉडल काम करेगा
4:13
पीढ़ियों का मार्गदर्शन करने के लिए पाठ या छवियों के साथ
4:16
समग्र मॉडल इस तरह दिखेगा
4:18
आपकी प्रारंभिक छवि यहाँ होगी x
4:21
और फिर इसे एक जानकारी में एन्कोड करें
4:23
अंतरिक्ष को गुप्त स्थान या z यह कहा जाता है
4:26
एक बंदूक के समान है जहाँ आप करेंगे
4:29
छवि लेने के लिए एक एन्कोडर मॉडल का उपयोग करें
4:31
और सबसे प्रासंगिक निकालें
4:32
एक उप-स्थान में इसके बारे में जानकारी जो
4:35
आप एक डाउन सैंपलिंग कार्य के रूप में देख सकते हैं
4:37
जितना रखते हुए उसका आकार कम करना
4:39
जितनी संभव हो उतनी जानकारी अब आप में हैं
4:42
आपके संघनित के साथ गुप्त स्थान
4:44
आप इनपुट करें तो वही काम करें
4:46
आपकी स्थिति या तो टेक्स्ट इमेज इनपुट करती है
4:49
या कुछ और और उनके साथ विलय करें
4:50
आपका वर्तमान छवि प्रतिनिधित्व . का उपयोग कर
4:53
ध्यान जो मैंने दूसरे में वर्णित किया है
4:55
वीडियो यह ध्यान तंत्र होगा
4:57
इनपुट को संयोजित करने का सबसे अच्छा तरीका सीखें
4:59
और इस अव्यक्त में कंडीशनिंग इनपुट
5:01
एक ट्रांसफॉर्मर ध्यान जोड़ने वाला स्थान
5:04
इन मर्ज किए गए मॉडल को फैलाने की सुविधा
5:07
इनपुट अब आपका प्रारंभिक शोर है
5:09
प्रसार प्रक्रिया
5:11
तो आपके पास एक ही प्रसार मॉडल है i
5:13
मेरी छवि और वीडियो में शामिल है लेकिन फिर भी
5:16
इस उप-स्थान में अंत में आप पुनर्निर्माण करते हैं
5:19
एक डिकोडर का उपयोग करके छवि जो आप कर सकते हैं
5:21
अपने आद्याक्षर के विपरीत चरण के रूप में देखें
5:23
एन्कोडर इसे संशोधित कर रहा है और
5:25
अव्यक्त स्थान में अस्वीकृत इनपुट to
5:28
अंतिम उच्च रिज़ॉल्यूशन छवि का निर्माण करें
5:31
मूल रूप से आपके परिणामों को अपसैंपलिंग करना और
5:34
वोइला यह है कि आप प्रसार का उपयोग कैसे कर सकते हैं
5:36
जैसे कार्यों की एक विस्तृत विविधता के लिए मॉडल
5:39
पेंटिंग में सुपर रेजोल्यूशन और यहां तक कि
5:41
हाल ही में स्थिर के साथ छवि के लिए पाठ
5:44
प्रसार खुला स्रोत मॉडल के माध्यम से
5:46
अधिक होने पर कंडीशनिंग प्रक्रिया
5:49
अधिक कुशल और आपको चलाने की अनुमति देता है
5:51
आवश्यकता के बजाय उन्हें अपने gpus पर
5:54
उनमें से सैकड़ों आपने सही सुना
5:56
वहाँ के सभी देवों के लिए जो चाहते हैं
5:58
छवि और छवि के लिए उनका अपना पाठ
6:00
संश्लेषण मॉडल अपने आप चल रहा है
6:02
gpus कोड के साथ उपलब्ध है
6:04
प्री-टर्न मॉडल सभी लिंक हैं
6:06
नीचे यदि आप मॉडल का उपयोग करते हैं तो कृपया
6:08
अपने परीक्षण आईडी और परिणाम साझा करें या कोई भी
6:10
आपके पास मेरे साथ प्रतिक्रिया है, मुझे अच्छा लगेगा
6:13
इसके बारे में बात करें बेशक यह बस था
6:15
अव्यक्त प्रसार का एक सिंहावलोकन
6:17
मॉडल और मैं आपको उनके पढ़ने के लिए आमंत्रित करता हूं
6:19
महान पेपर नीचे भी जुड़ा हुआ है
6:21
मॉडल और दृष्टिकोण के बारे में अधिक जानें
6:24
क्वैक फॉर में मेरे दोस्तों को बहुत-बहुत धन्यवाद
6:26
इस वीडियो को प्रायोजित करना और इससे भी बड़ा
6:28
पूरा देखने के लिए धन्यवाद
6:30
वीडियो मैं आपको अगले सप्ताह के साथ देखूंगा
6:33
एक और अद्भुत पेपर