نویسندگان:
(1) Anton Razzhigaev، AIRI و Skoltech.
(2) Arseniy Shakhmatov، Sber AI;
(3) آناستازیا مالتسوا، Sber AI؛
(4) ولادیمیر آرکیپکین، Sber AI؛
(5) ایگور پاولوف، Sber AI;
(6) ایلیا ریابوف، Sber AI؛
(7) آنجلینا کوتس، Sber AI;
(8) الکساندر پانچنکو، AIRI و Skoltech.
(9) آندری کوزنتسوف، AIRI و Sber AI.
(10) Denis Dimitrov، AIRI و Sber AI.
یادداشت ویرایشگر: این قسمت 1 از 8 مطالعه ای است که جزئیات توسعه کاندینسکی را شرح می دهد، اولین معماری متن به تصویر که با استفاده از ترکیبی از انتشار تصویر قبلی و پنهان طراحی شده است. بقیه را در ادامه بخوانید.
تولید متن به تصویر یک حوزه مهم در بینایی کامپیوتری مدرن است و از طریق تکامل معماری های مولد به پیشرفت های قابل توجهی دست یافته است. در این میان، مدلهای مبتنی بر انتشار وجود دارند که پیشرفتهای کیفی ضروری را نشان دادهاند. این مدل ها به طور کلی به دو دسته تقسیم می شوند: رویکردهای سطح پیکسل و سطح پنهان. ما کاندینسکی [1] را ارائه میکنیم، یک کاوش جدید در معماری انتشار نهفته، که اصول مدلهای قبلی تصویر را با تکنیکهای انتشار پنهان ترکیب میکند. مدل قبلی تصویر به طور جداگانه برای نگاشت جاسازی های متن به جاسازی های تصویر CLIP آموزش داده شده است. یکی دیگر از ویژگی های متمایز مدل پیشنهادی، پیاده سازی اصلاح شده MoVQ است که به عنوان جزء رمزگذار خودکار تصویر عمل می کند. به طور کلی، مدل طراحی شده شامل 3.3B پارامتر است. ما همچنین یک سیستم نمایشی کاربرپسند را مستقر کردیم که از حالتهای تولیدی متنوعی مانند تولید متن به تصویر، ترکیب تصویر، ترکیب متن و تصویر، تولید تغییرات تصویر، و نقاشی داخلی/خارجی با هدایت متن پشتیبانی میکند. علاوه بر این، ما کد منبع و نقاط بازرسی مدلهای کاندینسکی را منتشر کردیم. ارزیابیهای تجربی امتیاز FID 8.03 را در مجموعه داده COCO-30K نشان میدهد که مدل ما را به عنوان بهترین عملکرد منبع باز از نظر کیفیت تولید تصویر قابل اندازهگیری نشان میدهد.
در مدت زمان بسیار کوتاهی، تواناییهای تولیدی مدلهای تبدیل متن به تصویر بهطور قابلتوجهی بهبود یافته است و کیفیت واقعی عکس، سرعت استنتاج تقریباً زمان واقعی، تعداد زیادی برنامهها و ویژگیها، از جمله وب ساده با کاربری آسان را در اختیار کاربران قرار میدهد. پلتفرم های مبتنی بر و ویرایشگرهای گرافیکی پیشرفته هوش مصنوعی.
این مقاله تحقیقات منحصر به فرد ما را در مورد طراحی معماری انتشار پنهان ارائه می دهد و دیدگاهی تازه و نوآورانه را در این زمینه مطالعاتی پویا ارائه می دهد. ابتدا معماری جدید کاندینسکی و جزئیات آن را شرح می دهیم. سیستم نمایشی با ویژگی های پیاده سازی شده مدل نیز شرح داده شده است. دوم، آزمایشهای انجامشده از نظر کیفیت تولید تصویر را نشان میدهیم و بالاترین امتیاز FID را در بین مدلهای منبع باز موجود به دست میآوریم. علاوه بر این، ما مطالعه دقیق فرسایش تنظیمات قبلی را که انجام دادهایم ارائه میکنیم، که به ما امکان میدهد پیکربندیهای مختلف را به دقت تجزیه و تحلیل و ارزیابی کنیم تا به موثرترین و دقیقترین طراحی مدل برسیم.
کمک های ما به شرح زیر است:
• ما اولین معماری متن به تصویر را ارائه می کنیم که با استفاده از ترکیبی از انتشار تصویر قبلی و پنهان طراحی شده است.
• ما نتایج تجربی قابل مقایسه با مدلهای پیشرفته (SotA) مانند Stable Diffusion، IF، و DALL-E 2 را از نظر متریک FID نشان میدهیم و امتیاز SotA را در بین تمام مدلهای منبع باز موجود به دست میآوریم.
• ما یک پیاده سازی نرم افزاری از روش پیشرفته پیشنهادی برای تولید متن به تصویر ارائه می دهیم و مدل های از پیش آموزش دیده را منتشر می کنیم که در بین روش های عملکرد برتر منحصر به فرد است. مجوز آپاچی 2.0 استفاده از مدل را هم برای مقاصد غیرتجاری و هم برای اهداف تجاری ممکن می سازد.2 3
• ما یک برنامه ویرایشگر تصویر وب ایجاد می کنیم که می تواند برای تولید تعاملی تصاویر توسط اعلان های متنی استفاده شود (زبان های انگلیسی و روسی پشتیبانی می شوند) بر اساس روش پیشنهادی، و عملکرد inpainting/outpainting را ارائه می دهد. YouTube.5
این مقاله در arxiv تحت مجوز CC BY 4.0 DEED موجود است.
[1] این سیستم از نام واسیلی کاندینسکی، نقاش مشهور و نظریه پرداز هنر نامگذاری شده است.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU