Penulis:
(1) Anton Razzhigaev, AIRI dan Skoltech;
(2) Arseniy Shakhmatov, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) Vladimir Arkhipkin, Sber AI;
(5) Igor Pavlov, AI Terpadu;
(6) Ilya Ryabov, Sber AI;
(7) Angelina Kuts, Asisten AI;
(8) Alexander Panchenko, AIRI dan Skoltech;
(9) Andrey Kuznetsov, AIRI dan Sber AI;
(10) Denis Dimitrov, AIRI dan Sber AI.
Catatan Editor: Ini adalah Bagian 1 dari 8 studi yang merinci pengembangan Kandinsky, arsitektur teks-ke-gambar pertama yang dirancang menggunakan kombinasi gambar sebelumnya dan difusi laten. Baca selengkapnya di bawah ini.
Pembuatan teks ke gambar merupakan domain penting dalam visi komputer modern dan telah mencapai peningkatan substansial melalui evolusi arsitektur generatif. Di antaranya, terdapat model berbasis difusi yang telah menunjukkan peningkatan kualitas yang penting. Model-model ini secara umum dibagi menjadi dua kategori: pendekatan tingkat piksel dan tingkat laten. Kami menyajikan Kandinsky[1], eksplorasi baru arsitektur difusi laten, yang menggabungkan prinsip-prinsip model gambar sebelumnya dengan teknik difusi laten. Model gambar sebelumnya dilatih secara terpisah untuk memetakan penyematan teks ke penyematan gambar CLIP. Fitur khas lain dari model yang diusulkan adalah implementasi MoVQ yang dimodifikasi, yang berfungsi sebagai komponen autoencoder gambar. Secara keseluruhan, model yang dirancang berisi 3.3B parameter. Kami juga menerapkan sistem demo yang mudah digunakan yang mendukung beragam mode generatif seperti pembuatan teks ke gambar, fusi gambar, fusi teks dan gambar, pembuatan variasi gambar, dan inpainting/outpainting yang dipandu teks. Selain itu, kami merilis kode sumber dan titik pemeriksaan untuk model Kandinsky. Evaluasi eksperimental menunjukkan skor FID sebesar 8,03 pada kumpulan data COCO-30K, yang menandai model kami sebagai model sumber terbuka teratas dalam hal kualitas pembuatan gambar yang terukur.
Dalam waktu yang cukup singkat, kemampuan generatif model teks-ke-gambar telah meningkat secara substansial, memberikan pengguna kualitas fotorealistik, kecepatan inferensi mendekati waktu nyata, sejumlah besar aplikasi dan fitur, termasuk platform berbasis web yang sederhana dan mudah digunakan serta editor grafik AI yang canggih.
Makalah ini menyajikan penyelidikan unik kami terhadap desain arsitektur difusi laten, yang menawarkan perspektif baru dan inovatif pada bidang studi yang dinamis ini. Pertama, kami menjelaskan arsitektur baru Kandinsky dan detailnya. Sistem demo dengan fitur-fitur model yang diterapkan juga dijelaskan. Kedua, kami menunjukkan eksperimen, yang dilakukan dalam hal kualitas pembuatan gambar dan menghasilkan skor FID tertinggi di antara model-model sumber terbuka yang ada. Selain itu, kami menyajikan studi ablasi yang ketat dari pengaturan sebelumnya yang kami lakukan, yang memungkinkan kami untuk menganalisis dan mengevaluasi berbagai konfigurasi dengan cermat untuk menghasilkan desain model yang paling efektif dan disempurnakan.
Kontribusi kami adalah sebagai berikut:
• Kami menyajikan arsitektur teks-ke-gambar pertama yang dirancang menggunakan kombinasi gambar sebelumnya dan difusi laten.
• Kami menunjukkan hasil eksperimen yang sebanding dengan model terkini (SotA) seperti Difusi Stabil, IF, dan DALL-E 2, dalam hal metrik FID dan mencapai skor SotA di antara semua model sumber terbuka yang ada.
• Kami menyediakan implementasi perangkat lunak dari metode mutakhir yang diusulkan untuk pembuatan teks ke gambar, dan merilis model yang telah dilatih sebelumnya, yang unik di antara metode dengan kinerja terbaik. Lisensi Apache 2.0 memungkinkan penggunaan model tersebut untuk tujuan komersial maupun nonkomersial.2 3
• Kami membuat aplikasi penyunting gambar web yang dapat digunakan untuk pembuatan gambar interaktif melalui perintah teks (bahasa Inggris dan Rusia didukung) berdasarkan metode yang diusulkan, dan menyediakan fungsionalitas inpainting/outpainting.4 Demonstrasi video tersedia di YouTube.5
Makalah ini tersedia di arxiv di bawah lisensi CC BY 4.0 DEED.
[1] Sistem ini dinamai Wassily Kandinsky, seorang pelukis terkenal dan ahli teori seni.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU