paint-brush
गुप्त प्रसार मॉडल क्या हैं? स्थिर प्रसार के पीछे की वास्तुकलाद्वारा@whatsai
11,809 रीडिंग
11,809 रीडिंग

गुप्त प्रसार मॉडल क्या हैं? स्थिर प्रसार के पीछे की वास्तुकला

द्वारा Louis Bouchard6m2022/08/29
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

हाल के सभी सुपर शक्तिशाली छवि मॉडल जैसे डेल, इमेजन या मिडजर्नी में क्या समानता है? उनकी उच्च कंप्यूटिंग लागत, विशाल प्रशिक्षण समय और साझा प्रचार के अलावा, वे सभी एक ही तंत्र पर आधारित हैं: प्रसार। डिफ्यूजन मॉडल ने हाल ही में अधिकांश छवि कार्यों के लिए अत्याधुनिक परिणाम प्राप्त किए, जिसमें DALLE के साथ टेक्स्ट-टू-इमेज शामिल है, लेकिन कई अन्य छवि निर्माण-संबंधित कार्य भी हैं, जैसे इमेज इनपेंटिंग, स्टाइल ट्रांसफर या इमेज सुपर-रिज़ॉल्यूशन। लेकिन वे कैसे काम करते हैं? वीडियो में और जानें...

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - गुप्त प्रसार मॉडल क्या हैं? स्थिर प्रसार के पीछे की वास्तुकला
Louis Bouchard HackerNoon profile picture

DALLE , Imagen , या Midjourney जैसे हाल के सभी सुपर-शक्तिशाली छवि मॉडल में क्या समानता है? उनकी उच्च कंप्यूटिंग लागत, विशाल प्रशिक्षण समय और साझा प्रचार के अलावा, वे सभी एक ही तंत्र पर आधारित हैं: प्रसार।

डिफ्यूजन मॉडल ने हाल ही में अधिकांश छवि कार्यों के लिए अत्याधुनिक परिणाम प्राप्त किए, जिसमें DALLE के साथ टेक्स्ट-टू-इमेज शामिल है, लेकिन कई अन्य छवि निर्माण-संबंधित कार्य भी हैं, जैसे इमेज इनपेंटिंग, स्टाइल ट्रांसफर या इमेज सुपर-रिज़ॉल्यूशन। लेकिन वे कैसे काम करते हैं? वीडियो में और जानें...

संदर्भ

►पूरा लेख पढ़ें: https://www.louisbouchard.ai/latent-diffusion-models/
रोम्बाच, आर., ब्लैटमैन, ए., लोरेंज, डी., एस्सेर, पी. और ओमर, बी., 2022।
अव्यक्त प्रसार मॉडल के साथ उच्च-रिज़ॉल्यूशन छवि संश्लेषण। में
कंप्यूटर विजन और पैटर्न पर आईईईई/सीवीएफ सम्मेलन की कार्यवाही
मान्यता (पीपी. 10684–10695), https://arxiv.org/pdf/2112.10752.pdf
अव्यक्त प्रसार कोड: https://github.com/CompVis/latent-diffusion
►स्थिर प्रसार कोड (एलडी पर आधारित टेक्स्ट-टू-इमेज): https://github.com/CompVis/stable-diffusion
►इसे स्वयं आज़माएं: https://huggingface.co/spaces/stabilityai/stable-diffusion
वेब अनुप्रयोग:
https://stabilityai.us.auth0.com/u/login?state=hKFo2SA4MFJLR1M4cVhJcllLVmlsSV9vcXNYYy11Q25rRkVzZaFur3VuaXZlcnNhbC1sb2dpbqN0aWTZIFRjV2p5dHkzNGQzdkFKZUdyUEprRnhGeFl6ZVdVUDRZo2NpZNkgS3ZZWkpLU2htVW9PalhwY2xRbEtZVXh1Y0FWZXNsSE4
►माई न्यूज़लेटर (आपके ईमेल पर साप्ताहिक रूप से समझाया गया एक नया AI एप्लिकेशन!): https://www.louisbouchard.ai/newsletter/

वीडियो प्रतिलेख

0:00

सभी हाल ही में सुपर शक्तिशाली छवि क्या करते हैं

0:02

दिल्ली कल्पना या मध्य यात्रा जैसे मॉडल

0:05

उच्च कंप्यूटिंग के अलावा आम में है

0:08

भारी प्रशिक्षण समय और साझा प्रचार की लागत

0:10

वे सभी एक ही तंत्र पर आधारित हैं

0:13

हाल ही में फ्यूजन मॉडल का प्रसार

0:15

के लिए अत्याधुनिक परिणाम प्राप्त किए

0:17

पाठ से छवि सहित अधिकांश छवि कार्य

0:19

दिल्ली के साथ लेकिन कई अन्य छवि

0:21

छवि और . जैसे पीढ़ी से संबंधित कार्य

0:23

पेंटिंग स्टाइल ट्रांसफर या इमेज सुपर

0:25

संकल्प हालांकि कुछ हैं

0:27

डाउनसाइड्स वे क्रमिक रूप से काम करते हैं

0:30

पूरी छवि का अर्थ है कि दोनों

0:31

प्रशिक्षण और अनुमान के समय सुपर हैं

0:34

महंगा है इसलिए आपको सैकड़ों चाहिए

0:36

ऐसे मॉडल को प्रशिक्षित करने के लिए gpus का और क्यों

0:38

आप अपना पाने के लिए कुछ मिनट प्रतीक्षा करें

0:40

परिणाम यह कोई आश्चर्य की बात नहीं है कि केवल

0:42

Google या openai जैसी सबसे बड़ी कंपनियां

0:45

उन मॉडलों को जारी कर रहे हैं

0:47

लेकिन वे क्या हैं मैंने प्रसार को कवर किया है

0:49

कुछ वीडियो में मॉडल जो i

0:51

आपको बेहतर के लिए जाँच करने के लिए आमंत्रित करता है

0:52

समझते हैं कि वे पुनरावृत्त मॉडल हैं

0:55

जो यादृच्छिक शोर को इनपुट के रूप में लेते हैं जो

0:57

एक पाठ या एक के साथ वातानुकूलित किया जा सकता है

0:59

छवि तो यह पूरी तरह से यादृच्छिक नहीं है

1:02

इस शोर को दूर करना सीखता है

1:04

मॉडल क्या पैरामीटर सीखकर

1:06

इस शोर को समाप्त करने के लिए लागू होना चाहिए

1:08

एक अंतिम छवि के साथ तो मूल

1:10

प्रसार मॉडल एक यादृच्छिक लेंगे

1:12

छवि के आकार के साथ शोर और

1:14

तब तक और भी शोर लागू करना सीखें

1:17

हम एक वास्तविक छवि पर वापस आते हैं यह है

1:19

संभव है क्योंकि मॉडल होगा

1:21

के दौरान वास्तविक छवियों तक पहुंच

1:23

प्रशिक्षण और सीखने में सक्षम हो जाएगा

1:25

इस तरह के शोर को लागू करके सही पैरामीटर

1:27

छवि को पुनरावृत्त रूप से तब तक

1:29

पूर्ण शोर तक पहुँचता है और is

1:31

पहचानने अयोग्य

1:33

तब जब हम से संतुष्ट होते हैं

1:35

शोर हम अपनी सभी छवियों से प्राप्त करते हैं अर्थ

1:37

कि वे समान हैं और शोर उत्पन्न करते हैं

1:40

इसी तरह के वितरण से हम तैयार हैं

1:42

हमारे मॉडल का उल्टा उपयोग करने और उसे खिलाने के लिए

1:45

विपरीत क्रम में समान शोर

1:48

उपयोग की गई छवि के समान छवि की अपेक्षा करें

1:50

प्रशिक्षण के दौरान तो यहां मुख्य समस्या

1:53

क्या आप इसके साथ सीधे काम कर रहे हैं

1:54

पिक्सेल और बड़े डेटा इनपुट जैसे

1:57

चित्र देखते हैं कि हम इसे कैसे ठीक कर सकते हैं

1:59

गणना के मुद्दे को रखते हुए

2:02

दिखाए गए अनुसार परिणामों की गुणवत्ता

2:04

यहां दिल्ली से तुलना करें लेकिन पहले दें

2:07

मैं कुछ सेकंड के लिए आपको my . से मिलवाता हूँ

2:09

क्वैक पर दोस्तों इस वीडियो को प्रायोजित कर रहे हैं

2:11

जैसा कि आप निश्चित रूप से बहुमत को जानते हैं

2:13

व्यवसायों के अब एआई और एमएल . की रिपोर्ट करें

2:15

उनकी प्रक्रियाओं में गोद लेना लेकिन जटिल

2:18

मोडल परिनियोजन जैसे संचालन

2:20

प्रशिक्षण परीक्षण और सुविधा स्टोर

2:22

प्रबंधन रास्ते में आड़े आ रहा है

2:24

प्रगति एमएल मॉडल परिनियोजन में से एक है

2:26

यह सबसे जटिल प्रक्रिया है जैसे a

2:29

कठोर प्रक्रिया है कि डेटा वैज्ञानिक

2:31

टीमें हल करने में बहुत अधिक समय व्यतीत करती हैं

2:33

बैक-एंड और इंजीनियरिंग कार्य पहले

2:35

मॉडल को अंदर धकेलने में सक्षम होना

2:37

उत्पादन कुछ मैं व्यक्तिगत रूप से

2:39

अनुभवी इसकी भी बहुत आवश्यकता है

2:42

विभिन्न कौशल सेटों में अक्सर दो की आवश्यकता होती है

2:44

एक साथ मिलकर काम करने वाली विभिन्न टीमें

2:46

सौभाग्य से हमारे लिए क्वैक बचाता है a

2:48

पूरी तरह से प्रबंधित मंच जो एमएल . को एकीकृत करता है

2:50

इंजीनियरिंग और डेटा संचालन

2:53

चुस्त बुनियादी ढाँचा प्रदान करना

2:55

के निरंतर उत्पादन को सक्षम बनाता है

2:57

एमएल मॉडल बड़े पैमाने पर आपके पास नहीं है

2:59

सब कुछ एंड-टू-एंड करना सीखें

3:01

अब उनके लिए धन्यवाद क्वैक एम्पावर

3:04

मशीन वितरित करने के लिए संगठन

3:06

बड़े पैमाने पर उत्पादन में मॉडल सीखना

3:08

यदि आप अपने मॉडल को गति देना चाहते हैं

3:10

उत्पादन के लिए वितरण कृपया कुछ ले लो

3:12

मिनट और नीचे दिए गए पहले लिंक पर क्लिक करें

3:14

यह जांचने के लिए कि वे क्या पेशकश करते हैं क्योंकि मुझे यकीन है कि यह

3:16

किसी के लिए भी सार्थक होगा धन्यवाद

3:18

एक नज़र डालें और मुझे और मेरे का समर्थन करें

3:20

क्वैक पर दोस्त

3:23

ये शक्तिशाली प्रसार मॉडल कैसे हो सकते हैं

3:25

द्वारा कम्प्यूटेशनल रूप से कुशल बनें

3:27

उन्हें गुप्त प्रसार में बदलना

3:30

मॉडल इसका मतलब है कि रॉबिन रंबैक और

3:32

उनके सहयोगियों ने इसे लागू किया

3:34

प्रसार दृष्टिकोण जिसे हमने अभी कवर किया है

3:36

एक संकुचित छवि प्रतिनिधित्व के भीतर

3:38

छवि के बजाय स्वयं और फिर

3:41

छवि के पुनर्निर्माण के लिए काम किया ताकि वे

3:43

पिक्सेल स्थान के साथ काम नहीं कर रहे हैं या

3:45

नियमित छवियां अब ऐसे में काम कर रही हैं

3:48

संपीड़ित स्थान न केवल अनुमति देता है

3:50

अधिक कुशल और तेज पीढ़ी के रूप में

3:52

डेटा का आकार बहुत छोटा है लेकिन यह भी

3:54

विभिन्न के साथ काम करने की अनुमति देता है

3:56

तौर-तरीके क्योंकि वे एन्कोडिंग कर रहे हैं

3:58

इनपुट आप इसे किसी भी प्रकार के इनपुट को फीड कर सकते हैं

4:00

छवियों या पाठ की तरह और मॉडल होगा

4:03

इन इनपुट को उसी में एन्कोड करना सीखें

4:05

उप अंतरिक्ष कि प्रसार मॉडल होगा

4:07

एक छवि उत्पन्न करने के लिए उपयोग करें तो हाँ बस

4:10

क्लिप मॉडल की तरह एक मॉडल काम करेगा

4:13

पीढ़ियों का मार्गदर्शन करने के लिए पाठ या छवियों के साथ

4:16

समग्र मॉडल इस तरह दिखेगा

4:18

आपकी प्रारंभिक छवि यहाँ होगी x

4:21

और फिर इसे एक जानकारी में एन्कोड करें

4:23

अंतरिक्ष को गुप्त स्थान या z यह कहा जाता है

4:26

एक बंदूक के समान है जहाँ आप करेंगे

4:29

छवि लेने के लिए एक एन्कोडर मॉडल का उपयोग करें

4:31

और सबसे प्रासंगिक निकालें

4:32

एक उप-स्थान में इसके बारे में जानकारी जो

4:35

आप एक डाउन सैंपलिंग कार्य के रूप में देख सकते हैं

4:37

जितना रखते हुए उसका आकार कम करना

4:39

जितनी संभव हो उतनी जानकारी अब आप में हैं

4:42

आपके संघनित के साथ गुप्त स्थान

4:44

आप इनपुट करें तो वही काम करें

4:46

आपकी स्थिति या तो टेक्स्ट इमेज इनपुट करती है

4:49

या कुछ और और उनके साथ विलय करें

4:50

आपका वर्तमान छवि प्रतिनिधित्व . का उपयोग कर

4:53

ध्यान जो मैंने दूसरे में वर्णित किया है

4:55

वीडियो यह ध्यान तंत्र होगा

4:57

इनपुट को संयोजित करने का सबसे अच्छा तरीका सीखें

4:59

और इस अव्यक्त में कंडीशनिंग इनपुट

5:01

एक ट्रांसफॉर्मर ध्यान जोड़ने वाला स्थान

5:04

इन मर्ज किए गए मॉडल को फैलाने की सुविधा

5:07

इनपुट अब आपका प्रारंभिक शोर है

5:09

प्रसार प्रक्रिया

5:11

तो आपके पास एक ही प्रसार मॉडल है i

5:13

मेरी छवि और वीडियो में शामिल है लेकिन फिर भी

5:16

इस उप-स्थान में अंत में आप पुनर्निर्माण करते हैं

5:19

एक डिकोडर का उपयोग करके छवि जो आप कर सकते हैं

5:21

अपने आद्याक्षर के विपरीत चरण के रूप में देखें

5:23

एन्कोडर इसे संशोधित कर रहा है और

5:25

अव्यक्त स्थान में अस्वीकृत इनपुट to

5:28

अंतिम उच्च रिज़ॉल्यूशन छवि का निर्माण करें

5:31

मूल रूप से आपके परिणामों को अपसैंपलिंग करना और

5:34

वोइला यह है कि आप प्रसार का उपयोग कैसे कर सकते हैं

5:36

जैसे कार्यों की एक विस्तृत विविधता के लिए मॉडल

5:39

पेंटिंग में सुपर रेजोल्यूशन और यहां तक कि

5:41

हाल ही में स्थिर के साथ छवि के लिए पाठ

5:44

प्रसार खुला स्रोत मॉडल के माध्यम से

5:46

अधिक होने पर कंडीशनिंग प्रक्रिया

5:49

अधिक कुशल और आपको चलाने की अनुमति देता है

5:51

आवश्यकता के बजाय उन्हें अपने gpus पर

5:54

उनमें से सैकड़ों आपने सही सुना

5:56

वहाँ के सभी देवों के लिए जो चाहते हैं

5:58

छवि और छवि के लिए उनका अपना पाठ

6:00

संश्लेषण मॉडल अपने आप चल रहा है

6:02

gpus कोड के साथ उपलब्ध है

6:04

प्री-टर्न मॉडल सभी लिंक हैं

6:06

नीचे यदि आप मॉडल का उपयोग करते हैं तो कृपया

6:08

अपने परीक्षण आईडी और परिणाम साझा करें या कोई भी

6:10

आपके पास मेरे साथ प्रतिक्रिया है, मुझे अच्छा लगेगा

6:13

इसके बारे में बात करें बेशक यह बस था

6:15

अव्यक्त प्रसार का एक सिंहावलोकन

6:17

मॉडल और मैं आपको उनके पढ़ने के लिए आमंत्रित करता हूं

6:19

महान पेपर नीचे भी जुड़ा हुआ है

6:21

मॉडल और दृष्टिकोण के बारे में अधिक जानें

6:24

क्वैक फॉर में मेरे दोस्तों को बहुत-बहुत धन्यवाद

6:26

इस वीडियो को प्रायोजित करना और इससे भी बड़ा

6:28

पूरा देखने के लिए धन्यवाद

6:30

वीडियो मैं आपको अगले सप्ताह के साथ देखूंगा

6:33

एक और अद्भुत पेपर