Pengarang:
(1) Anton Razzhigaev, AIRI dan Skoltech;
(2) Arseniy Shakhmatov, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) Vladimir Arkhipkin, Sber AI;
(5) Igor Pavlov, Sber AI;
(6) Ilya Ryabov, Sber AI;
(7) Angelina Kuts, Sber AI;
(8) Alexander Panchenko, AIRI dan Skoltech;
(9) Andrey Kuznetsov, AIRI dan Sber AI;
(10) Denis Dimitrov, AIRI dan Sber AI.
Nota Editor: Ini ialah Bahagian 1 daripada 8 kajian yang memperincikan pembangunan Kandinsky, seni bina teks-ke-imej pertama yang direka bentuk menggunakan gabungan resapan imej sebelum dan terpendam. Baca selebihnya di bawah.
Penjanaan teks-ke-imej ialah domain penting dalam penglihatan komputer moden dan telah mencapai peningkatan yang ketara melalui evolusi seni bina generatif. Antaranya, terdapat model berasaskan resapan yang telah menunjukkan peningkatan kualiti yang penting. Model ini biasanya dibahagikan kepada dua kategori: pendekatan tahap piksel dan tahap pendam. Kami mempersembahkan Kandinsky[1], penerokaan novel seni bina resapan terpendam, menggabungkan prinsip model imej terdahulu dengan teknik resapan terpendam. Model terdahulu imej dilatih secara berasingan untuk memetakan benam teks kepada benam imej CLIP. Satu lagi ciri tersendiri bagi model yang dicadangkan ialah pelaksanaan MoVQ yang diubah suai, yang berfungsi sebagai komponen pengekod auto imej. Secara keseluruhan, model yang direka mengandungi parameter 3.3B. Kami juga menggunakan sistem demo mesra pengguna yang menyokong mod generatif yang pelbagai seperti penjanaan teks-ke-imej, gabungan imej, gabungan teks dan imej, penjanaan variasi imej dan lukisan dalam/lukisan berpandukan teks. Selain itu, kami mengeluarkan kod sumber dan pusat pemeriksaan untuk model Kandinsky. Penilaian percubaan menunjukkan skor FID 8.03 pada set data COCO-30K, menandakan model kami sebagai pelaksana sumber terbuka teratas dari segi kualiti penjanaan imej yang boleh diukur.
Dalam tempoh masa yang agak singkat, kebolehan generatif model teks-ke-imej telah bertambah baik dengan ketara, memberikan pengguna kualiti fotorealistik, kelajuan inferens hampir masa nyata, sejumlah besar aplikasi dan ciri, termasuk web yang mudah digunakan. platform berasaskan dan editor grafik AI yang canggih.
Kertas kerja ini membentangkan penyiasatan unik kami tentang reka bentuk seni bina resapan terpendam, menawarkan perspektif yang segar dan inovatif mengenai bidang pengajian dinamik ini. Pertama, kami menerangkan seni bina baharu Kandinsky dan butirannya. Sistem demo dengan ciri-ciri model yang dilaksanakan juga diterangkan. Kedua, kami menunjukkan eksperimen, yang dijalankan dari segi kualiti penjanaan imej dan menghasilkan skor FID tertinggi dalam kalangan model sumber terbuka sedia ada. Selain itu, kami membentangkan kajian ablasi yang ketat bagi persediaan terdahulu yang kami jalankan, membolehkan kami menganalisis dan menilai pelbagai konfigurasi dengan teliti untuk mendapatkan reka bentuk model yang paling berkesan dan diperhalusi.
Sumbangan kami adalah seperti berikut:
• Kami mempersembahkan seni bina teks-ke-imej pertama yang direka bentuk menggunakan gabungan resapan sebelum dan terpendam imej.
• Kami menunjukkan hasil percubaan yang setanding dengan model terkini (SotA) seperti Stable Diffusion, IF dan DALL-E 2, dari segi metrik FID dan mencapai skor SotA antara semua model sumber terbuka sedia ada.
• Kami menyediakan pelaksanaan perisian kaedah tercanggih yang dicadangkan untuk penjanaan teks kepada imej, dan mengeluarkan model pra-latihan, yang unik di antara kaedah terbaik. Lesen Apache 2.0 membolehkan model ini digunakan untuk tujuan bukan komersial dan komersial.2 3
• Kami mencipta aplikasi penyunting imej web yang boleh digunakan untuk penjanaan imej interaktif melalui gesaan teks (bahasa Inggeris dan Rusia disokong) berdasarkan kaedah yang dicadangkan, dan menyediakan kefungsian mengecat/melukis luar.4 Demonstrasi video tersedia pada YouTube.5
Kertas kerja ini boleh didapati di arxiv di bawah lesen CC BY 4.0 DEED.
[1] Sistem ini dinamakan sempena Wassily Kandinsky, seorang pelukis terkenal dan ahli teori seni.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU