लेखकहरू:
(1) Anton Razzhigaev, AIRI र Skoltech;
(2) आर्सेनी शाख्माटोभ, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) व्लादिमिर अर्खिपकिन, Sber AI;
(5) इगोर पावलोभ, Sber AI;
(6) Ilya Ryabov, Sber AI;
(7) एन्जेलिना कुट्स, Sber AI;
(8) अलेक्जेंडर पन्चेन्को, AIRI र Skoltech;
(9) आन्द्रे कुज्नेत्सोभ, AIRI र Sber AI;
(10) डेनिस दिमित्रोभ, AIRI र Sber AI।
सम्पादकको नोट: यो कान्डिन्स्कीको विकासको विवरण दिने अध्ययनको ८ को भाग १ हो, छवि पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको पहिलो पाठ-देखि-छवि वास्तुकला। बाँकी तल पढ्नुहोस्।
पाठ-देखि-छवि उत्पादन आधुनिक कम्प्युटर दृष्टिमा एक महत्त्वपूर्ण डोमेन हो र यसले जेनेरेटिभ आर्किटेक्चरको विकासको माध्यमबाट पर्याप्त सुधारहरू हासिल गरेको छ। यी मध्ये, त्यहाँ प्रसार-आधारित मोडेलहरू छन् जसले आवश्यक गुणस्तर वृद्धिहरू प्रदर्शन गरेको छ। यी मोडेलहरू सामान्यतया दुई कोटिहरूमा विभाजित हुन्छन्: पिक्सेल-स्तर र अव्यक्त-स्तर दृष्टिकोण। हामी कान्डिन्स्की [१] प्रस्तुत गर्छौं, अव्यक्त प्रसार वास्तुकलाको उपन्यास अन्वेषण, अव्यक्त प्रसार प्रविधिहरूसँग छवि अघिल्लो मोडेलका सिद्धान्तहरू संयोजन गर्दै। छविको अघिल्लो मोडेललाई CLIP को छवि इम्बेडिङहरूमा पाठ इम्बेडिङहरू नक्सा गर्न छुट्टै तालिम दिइएको छ। प्रस्तावित मोडेलको अर्को छुट्टै विशेषता परिमार्जित MoVQ कार्यान्वयन हो, जसले छवि अटोएनकोडर कम्पोनेन्टको रूपमा कार्य गर्दछ। समग्रमा, डिजाइन गरिएको मोडेलले 3.3B प्यारामिटरहरू समावेश गर्दछ। हामीले प्रयोगकर्ता-अनुकूल डेमो प्रणाली पनि तैनाथ गरेका छौं जसले पाठ-देखि-छवि उत्पादन, छवि फ्यूजन, पाठ र छवि फ्यूजन, छवि भिन्नताहरू, र पाठ-निर्देशित इनपेन्टिङ/आउटपेन्टिङ जस्ता विविध उत्पादन मोडहरूलाई समर्थन गर्दछ। थप रूपमा, हामीले क्यान्डिन्स्की मोडेलहरूको लागि स्रोत कोड र चेकपोइन्टहरू जारी गर्यौं। प्रयोगात्मक मूल्याङ्कनहरूले COCO-30K डेटासेटमा 8.03 को FID स्कोर देखाउँछन्, हाम्रो मोडेललाई मापनयोग्य छवि उत्पादन गुणस्तरको सन्दर्भमा शीर्ष खुला स्रोत प्रदर्शनकर्ताको रूपमा चिन्ह लगाउँछ।
धेरै छोटो अवधिमा, पाठ-देखि-छवि मोडेलहरूको उत्पादन क्षमताहरू उल्लेखनीय रूपमा सुधार भएको छ, जसले प्रयोगकर्ताहरूलाई फोटोरियलिस्टिक गुणस्तर प्रदान गर्दछ, वास्तविक-समय अनुमान गतिको नजिक, धेरै अनुप्रयोगहरू र सुविधाहरू, सरल प्रयोग गर्न-गर्न-सजिलो वेब सहित। -आधारित प्लेटफर्महरू र परिष्कृत एआई ग्राफिक्स सम्पादकहरू।
यस पेपरले अव्यक्त प्रसार वास्तुकला डिजाइनको हाम्रो अद्वितीय अनुसन्धान प्रस्तुत गर्दछ, अध्ययनको यस गतिशील क्षेत्रमा नयाँ र नवीन परिप्रेक्ष्य प्रदान गर्दछ। पहिलो, हामी Kandinsky को नयाँ वास्तुकला र यसको विवरण वर्णन। मोडेलको लागू सुविधाहरू सहित डेमो प्रणाली पनि वर्णन गरिएको छ। दोस्रो, हामी छवि उत्पादन गुणस्तरको सन्दर्भमा गरिएका प्रयोगहरू देखाउँछौं र अवस्थित खुला स्रोत मोडेलहरूमध्ये उच्चतम FID स्कोरको साथ आउँछौं। थप रूपमा, हामी हामीले सञ्चालन गरेका पूर्व सेटअपहरूको कठोर पृथक अध्ययन प्रस्तुत गर्दछौं, जसले हामीलाई सबैभन्दा प्रभावकारी र परिष्कृत मोडेल डिजाइनमा पुग्न विभिन्न कन्फिगरेसनहरूलाई ध्यानपूर्वक विश्लेषण र मूल्याङ्कन गर्न सक्षम पार्छ।
हाम्रा योगदानहरू निम्नानुसार छन्:
• हामी पहिलो पाठ-देखि-छवि वास्तुकला प्रस्तुत गर्दछौं जुन छविको पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको हो।
• हामीले FID मेट्रिकको सन्दर्भमा Stable Diffusion, IF, र DALL-E 2 जस्ता अत्याधुनिक (SotA) मोडेलहरूसँग तुलना गर्न मिल्ने प्रायोगिक परिणामहरू प्रदर्शन गर्छौं र सबै अवस्थित खुला स्रोत मोडेलहरू बीच SotA स्कोर हासिल गर्छौं।
• हामी टेक्स्ट टु इमेज जेनेरेशनको लागि प्रस्तावित अत्याधुनिक विधिको सफ्टवेयर कार्यान्वयन प्रदान गर्छौं, र पूर्व-प्रशिक्षित मोडेलहरू जारी गर्छौं, जुन उत्कृष्ट प्रदर्शन गर्ने विधिहरूमध्ये अद्वितीय छ। Apache 2.0 लाइसेन्सले यसलाई गैर-व्यावसायिक र व्यावसायिक उद्देश्यका लागि मोडेल प्रयोग गर्न सम्भव बनाउँछ।2 3
• हामीले प्रस्तावित विधिको आधारमा पाठ प्रम्प्टहरू (अंग्रेजी र रूसी भाषाहरू समर्थित छन्) द्वारा छविहरूको अन्तरक्रियात्मक उत्पादनको लागि प्रयोग गर्न सकिने वेब छवि सम्पादक अनुप्रयोग सिर्जना गर्छौं, र इनपेन्टिङ/आउटपेन्टिङ कार्यक्षमता प्रदान गर्दछ। 4 भिडियो प्रदर्शन उपलब्ध छ। YouTube.5
यो कागज CC BY 4.0 DEED लाइसेन्स अन्तर्गत arxiv मा उपलब्ध छ।
[१] प्रणालीको नाम वासिली कान्डिन्स्की, एक प्रसिद्ध चित्रकार र कला सिद्धान्तकारको नाममा राखिएको हो।
[२] https://github.com/ai-forever/Kandinsky-2
[३] https://huggingface.co/kandinsky-community
[४] https://fusionbrain.ai/en/editor
[५] https://www.youtube.com/watch?v=c7zHPc59cWU