paint-brush
रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्द्वारा@autoencoder
नयाँ इतिहास

रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्

द्वारा Auto Encoder: How to Ignore the Signal Noise3m2024/12/18
Read on Terminal Reader

धेरै लामो; पढ्नकाे लागि

अन्वेषकहरूले क्यान्डिन्स्की भनिने पाठ-देखि-छवि जेनेरेसन मोडेल विकास गरेका छन् जसले प्राकृतिक देखिने छविहरू उत्पादन गर्न उपन्यास अव्यक्त प्रसार मोडेल प्रयोग गर्दछ।
featured image - रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

लेखकहरू:

(1) Anton Razzhigaev, AIRI र Skoltech;

(2) आर्सेनी शाख्माटोभ, Sber AI;

(3) Anastasia Maltseva, Sber AI;

(4) व्लादिमिर अर्खिपकिन, Sber AI;

(5) इगोर पावलोभ, Sber AI;

(6) Ilya Ryabov, Sber AI;

(7) एन्जेलिना कुट्स, Sber AI;

(8) अलेक्जेंडर पन्चेन्को, AIRI र Skoltech;

(9) आन्द्रे कुज्नेत्सोभ, AIRI र Sber AI;

(10) डेनिस दिमित्रोभ, AIRI र Sber AI।


सम्पादकको नोट: यो कान्डिन्स्कीको विकासको विवरण दिने अध्ययनको ८ को भाग १ हो, छवि पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको पहिलो पाठ-देखि-छवि वास्तुकला। बाँकी तल पढ्नुहोस्।

लिङ्कहरूको तालिका


सार

पाठ-देखि-छवि उत्पादन आधुनिक कम्प्युटर दृष्टिमा एक महत्त्वपूर्ण डोमेन हो र यसले जेनेरेटिभ आर्किटेक्चरको विकासको माध्यमबाट पर्याप्त सुधारहरू हासिल गरेको छ। यी मध्ये, त्यहाँ प्रसार-आधारित मोडेलहरू छन् जसले आवश्यक गुणस्तर वृद्धिहरू प्रदर्शन गरेको छ। यी मोडेलहरू सामान्यतया दुई कोटिहरूमा विभाजित हुन्छन्: पिक्सेल-स्तर र अव्यक्त-स्तर दृष्टिकोण। हामी कान्डिन्स्की [१] प्रस्तुत गर्छौं, अव्यक्त प्रसार वास्तुकलाको उपन्यास अन्वेषण, अव्यक्त प्रसार प्रविधिहरूसँग छवि अघिल्लो मोडेलका सिद्धान्तहरू संयोजन गर्दै। छविको अघिल्लो मोडेललाई CLIP को छवि इम्बेडिङहरूमा पाठ इम्बेडिङहरू नक्सा गर्न छुट्टै तालिम दिइएको छ। प्रस्तावित मोडेलको अर्को छुट्टै विशेषता परिमार्जित MoVQ कार्यान्वयन हो, जसले छवि अटोएनकोडर कम्पोनेन्टको रूपमा कार्य गर्दछ। समग्रमा, डिजाइन गरिएको मोडेलले 3.3B प्यारामिटरहरू समावेश गर्दछ। हामीले प्रयोगकर्ता-अनुकूल डेमो प्रणाली पनि तैनाथ गरेका छौं जसले पाठ-देखि-छवि उत्पादन, छवि फ्यूजन, पाठ र छवि फ्यूजन, छवि भिन्नताहरू, र पाठ-निर्देशित इनपेन्टिङ/आउटपेन्टिङ जस्ता विविध उत्पादन मोडहरूलाई समर्थन गर्दछ। थप रूपमा, हामीले क्यान्डिन्स्की मोडेलहरूको लागि स्रोत कोड र चेकपोइन्टहरू जारी गर्यौं। प्रयोगात्मक मूल्याङ्कनहरूले COCO-30K डेटासेटमा 8.03 को FID स्कोर देखाउँछन्, हाम्रो मोडेललाई मापनयोग्य छवि उत्पादन गुणस्तरको सन्दर्भमा शीर्ष खुला स्रोत प्रदर्शनकर्ताको रूपमा चिन्ह लगाउँछ।

1 परिचय

धेरै छोटो अवधिमा, पाठ-देखि-छवि मोडेलहरूको उत्पादन क्षमताहरू उल्लेखनीय रूपमा सुधार भएको छ, जसले प्रयोगकर्ताहरूलाई फोटोरियलिस्टिक गुणस्तर प्रदान गर्दछ, वास्तविक-समय अनुमान गतिको नजिक, धेरै अनुप्रयोगहरू र सुविधाहरू, सरल प्रयोग गर्न-गर्न-सजिलो वेब सहित। -आधारित प्लेटफर्महरू र परिष्कृत एआई ग्राफिक्स सम्पादकहरू।


यस पेपरले अव्यक्त प्रसार वास्तुकला डिजाइनको हाम्रो अद्वितीय अनुसन्धान प्रस्तुत गर्दछ, अध्ययनको यस गतिशील क्षेत्रमा नयाँ र नवीन परिप्रेक्ष्य प्रदान गर्दछ। पहिलो, हामी Kandinsky को नयाँ वास्तुकला र यसको विवरण वर्णन। मोडेलको लागू सुविधाहरू सहित डेमो प्रणाली पनि वर्णन गरिएको छ। दोस्रो, हामी छवि उत्पादन गुणस्तरको सन्दर्भमा गरिएका प्रयोगहरू देखाउँछौं र अवस्थित खुला स्रोत मोडेलहरूमध्ये उच्चतम FID स्कोरको साथ आउँछौं। थप रूपमा, हामी हामीले सञ्चालन गरेका पूर्व सेटअपहरूको कठोर पृथक अध्ययन प्रस्तुत गर्दछौं, जसले हामीलाई सबैभन्दा प्रभावकारी र परिष्कृत मोडेल डिजाइनमा पुग्न विभिन्न कन्फिगरेसनहरूलाई ध्यानपूर्वक विश्लेषण र मूल्याङ्कन गर्न सक्षम पार्छ।


हाम्रा योगदानहरू निम्नानुसार छन्:


• हामी पहिलो पाठ-देखि-छवि वास्तुकला प्रस्तुत गर्दछौं जुन छविको पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको हो।


• हामीले FID मेट्रिकको सन्दर्भमा Stable Diffusion, IF, र DALL-E 2 जस्ता अत्याधुनिक (SotA) मोडेलहरूसँग तुलना गर्न मिल्ने प्रायोगिक परिणामहरू प्रदर्शन गर्छौं र सबै अवस्थित खुला स्रोत मोडेलहरू बीच SotA स्कोर हासिल गर्छौं।


• हामी टेक्स्ट टु इमेज जेनेरेशनको लागि प्रस्तावित अत्याधुनिक विधिको सफ्टवेयर कार्यान्वयन प्रदान गर्छौं, र पूर्व-प्रशिक्षित मोडेलहरू जारी गर्छौं, जुन उत्कृष्ट प्रदर्शन गर्ने विधिहरूमध्ये अद्वितीय छ। Apache 2.0 लाइसेन्सले यसलाई गैर-व्यावसायिक र व्यावसायिक उद्देश्यका लागि मोडेल प्रयोग गर्न सम्भव बनाउँछ।2 3


• हामीले प्रस्तावित विधिको आधारमा पाठ प्रम्प्टहरू (अंग्रेजी र रूसी भाषाहरू समर्थित छन्) द्वारा छविहरूको अन्तरक्रियात्मक उत्पादनको लागि प्रयोग गर्न सकिने वेब छवि सम्पादक अनुप्रयोग सिर्जना गर्छौं, र इनपेन्टिङ/आउटपेन्टिङ कार्यक्षमता प्रदान गर्दछ। 4 भिडियो प्रदर्शन उपलब्ध छ। YouTube.5


चित्र 1: कान्डिन्स्की मोडेलको छवि पूर्व योजना र अनुमान व्यवस्थाहरू।


यो कागज CC BY 4.0 DEED लाइसेन्स अन्तर्गत arxiv मा उपलब्ध छ।


[१] प्रणालीको नाम वासिली कान्डिन्स्की, एक प्रसिद्ध चित्रकार र कला सिद्धान्तकारको नाममा राखिएको हो।


[२] https://github.com/ai-forever/Kandinsky-2


[३] https://huggingface.co/kandinsky-community


[४] https://fusionbrain.ai/en/editor


[५] https://www.youtube.com/watch?v=c7zHPc59cWU