नयाँ इतिहास

रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्

द्वारा Auto Encoder: How to Ignore the Signal Noise3m2024/12/18

FA-AF

धेरै लामो; पढ्नकाे लागि

अन्वेषकहरूले क्यान्डिन्स्की भनिने पाठ-देखि-छवि जेनेरेसन मोडेल विकास गरेका छन् जसले प्राकृतिक देखिने छविहरू उत्पादन गर्न उपन्यास अव्यक्त प्रसार मोडेल प्रयोग गर्दछ।

featured image - रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्

लेखकहरू:

(1) Anton Razzhigaev, AIRI र Skoltech;

(2) आर्सेनी शाख्माटोभ, Sber AI;

(3) Anastasia Maltseva, Sber AI;

(4) व्लादिमिर अर्खिपकिन, Sber AI;

(5) इगोर पावलोभ, Sber AI;

(6) Ilya Ryabov, Sber AI;

(7) एन्जेलिना कुट्स, Sber AI;

(8) अलेक्जेंडर पन्चेन्को, AIRI र Skoltech;

(9) आन्द्रे कुज्नेत्सोभ, AIRI र Sber AI;

(10) डेनिस दिमित्रोभ, AIRI र Sber AI।

सम्पादकको नोट: यो कान्डिन्स्कीको विकासको विवरण दिने अध्ययनको ८ को भाग १ हो, छवि पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको पहिलो पाठ-देखि-छवि वास्तुकला। बाँकी तल पढ्नुहोस्।

लिङ्कहरूको तालिका

सार

पाठ-देखि-छवि उत्पादन आधुनिक कम्प्युटर दृष्टिमा एक महत्त्वपूर्ण डोमेन हो र यसले जेनेरेटिभ आर्किटेक्चरको विकासको माध्यमबाट पर्याप्त सुधारहरू हासिल गरेको छ। यी मध्ये, त्यहाँ प्रसार-आधारित मोडेलहरू छन् जसले आवश्यक गुणस्तर वृद्धिहरू प्रदर्शन गरेको छ। यी मोडेलहरू सामान्यतया दुई कोटिहरूमा विभाजित हुन्छन्: पिक्सेल-स्तर र अव्यक्त-स्तर दृष्टिकोण। हामी कान्डिन्स्की [१] प्रस्तुत गर्छौं, अव्यक्त प्रसार वास्तुकलाको उपन्यास अन्वेषण, अव्यक्त प्रसार प्रविधिहरूसँग छवि अघिल्लो मोडेलका सिद्धान्तहरू संयोजन गर्दै। छविको अघिल्लो मोडेललाई CLIP को छवि इम्बेडिङहरूमा पाठ इम्बेडिङहरू नक्सा गर्न छुट्टै तालिम दिइएको छ। प्रस्तावित मोडेलको अर्को छुट्टै विशेषता परिमार्जित MoVQ कार्यान्वयन हो, जसले छवि अटोएनकोडर कम्पोनेन्टको रूपमा कार्य गर्दछ। समग्रमा, डिजाइन गरिएको मोडेलले 3.3B प्यारामिटरहरू समावेश गर्दछ। हामीले प्रयोगकर्ता-अनुकूल डेमो प्रणाली पनि तैनाथ गरेका छौं जसले पाठ-देखि-छवि उत्पादन, छवि फ्यूजन, पाठ र छवि फ्यूजन, छवि भिन्नताहरू, र पाठ-निर्देशित इनपेन्टिङ/आउटपेन्टिङ जस्ता विविध उत्पादन मोडहरूलाई समर्थन गर्दछ। थप रूपमा, हामीले क्यान्डिन्स्की मोडेलहरूको लागि स्रोत कोड र चेकपोइन्टहरू जारी गर्यौं। प्रयोगात्मक मूल्याङ्कनहरूले COCO-30K डेटासेटमा 8.03 को FID स्कोर देखाउँछन्, हाम्रो मोडेललाई मापनयोग्य छवि उत्पादन गुणस्तरको सन्दर्भमा शीर्ष खुला स्रोत प्रदर्शनकर्ताको रूपमा चिन्ह लगाउँछ।

1 परिचय

धेरै छोटो अवधिमा, पाठ-देखि-छवि मोडेलहरूको उत्पादन क्षमताहरू उल्लेखनीय रूपमा सुधार भएको छ, जसले प्रयोगकर्ताहरूलाई फोटोरियलिस्टिक गुणस्तर प्रदान गर्दछ, वास्तविक-समय अनुमान गतिको नजिक, धेरै अनुप्रयोगहरू र सुविधाहरू, सरल प्रयोग गर्न-गर्न-सजिलो वेब सहित। -आधारित प्लेटफर्महरू र परिष्कृत एआई ग्राफिक्स सम्पादकहरू।

यस पेपरले अव्यक्त प्रसार वास्तुकला डिजाइनको हाम्रो अद्वितीय अनुसन्धान प्रस्तुत गर्दछ, अध्ययनको यस गतिशील क्षेत्रमा नयाँ र नवीन परिप्रेक्ष्य प्रदान गर्दछ। पहिलो, हामी Kandinsky को नयाँ वास्तुकला र यसको विवरण वर्णन। मोडेलको लागू सुविधाहरू सहित डेमो प्रणाली पनि वर्णन गरिएको छ। दोस्रो, हामी छवि उत्पादन गुणस्तरको सन्दर्भमा गरिएका प्रयोगहरू देखाउँछौं र अवस्थित खुला स्रोत मोडेलहरूमध्ये उच्चतम FID स्कोरको साथ आउँछौं। थप रूपमा, हामी हामीले सञ्चालन गरेका पूर्व सेटअपहरूको कठोर पृथक अध्ययन प्रस्तुत गर्दछौं, जसले हामीलाई सबैभन्दा प्रभावकारी र परिष्कृत मोडेल डिजाइनमा पुग्न विभिन्न कन्फिगरेसनहरूलाई ध्यानपूर्वक विश्लेषण र मूल्याङ्कन गर्न सक्षम पार्छ।

हाम्रा योगदानहरू निम्नानुसार छन्:

• हामी पहिलो पाठ-देखि-छवि वास्तुकला प्रस्तुत गर्दछौं जुन छविको पूर्व र अव्यक्त प्रसारको संयोजन प्रयोग गरेर डिजाइन गरिएको हो।

• हामीले FID मेट्रिकको सन्दर्भमा Stable Diffusion, IF, र DALL-E 2 जस्ता अत्याधुनिक (SotA) मोडेलहरूसँग तुलना गर्न मिल्ने प्रायोगिक परिणामहरू प्रदर्शन गर्छौं र सबै अवस्थित खुला स्रोत मोडेलहरू बीच SotA स्कोर हासिल गर्छौं।

• हामी टेक्स्ट टु इमेज जेनेरेशनको लागि प्रस्तावित अत्याधुनिक विधिको सफ्टवेयर कार्यान्वयन प्रदान गर्छौं, र पूर्व-प्रशिक्षित मोडेलहरू जारी गर्छौं, जुन उत्कृष्ट प्रदर्शन गर्ने विधिहरूमध्ये अद्वितीय छ। Apache 2.0 लाइसेन्सले यसलाई गैर-व्यावसायिक र व्यावसायिक उद्देश्यका लागि मोडेल प्रयोग गर्न सम्भव बनाउँछ।2 3

• हामीले प्रस्तावित विधिको आधारमा पाठ प्रम्प्टहरू (अंग्रेजी र रूसी भाषाहरू समर्थित छन्) द्वारा छविहरूको अन्तरक्रियात्मक उत्पादनको लागि प्रयोग गर्न सकिने वेब छवि सम्पादक अनुप्रयोग सिर्जना गर्छौं, र इनपेन्टिङ/आउटपेन्टिङ कार्यक्षमता प्रदान गर्दछ। 4 भिडियो प्रदर्शन उपलब्ध छ। YouTube.5

यो कागज CC BY 4.0 DEED लाइसेन्स अन्तर्गत arxiv मा उपलब्ध छ।

[१] प्रणालीको नाम वासिली कान्डिन्स्की, एक प्रसिद्ध चित्रकार र कला सिद्धान्तकारको नाममा राखिएको हो।

[२] https://github.com/ai-forever/Kandinsky-2

[३] https://huggingface.co/kandinsky-community

[४] https://fusionbrain.ai/en/editor

[५] https://www.youtube.com/watch?v=c7zHPc59cWU

L O A D I N G
. . . comments & more!

About Author

Auto Encoder: How to Ignore the Signal Noise@autoencoder

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Read my stories

ह्याङ्ग ट्यागहरू

machine-learning #artificial-intelligence #text-to-image-generation #computer-vision #generative-architectures #diffusion-based-models #kandinsky-ai-model #latent-diffusion-architecture #hackernoon-top-story

यो लेख मा प्रस्तुत गरिएको थियो...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

रूसी वैज्ञानिकहरूले छवि पूर्व, अव्यक्त प्रसार प्रयोग गरेर पहिलो पाठ-देखि-छवि वास्तुकला विकास गर्छन्

धेरै लामो; पढ्नकाे लागि

लिङ्कहरूको तालिका

सार

1 परिचय

About Author

ह्याङ्ग ट्यागहरू

यो लेख मा प्रस्तुत गरिएको थियो...

सम्बन्धित कथाहरू