Autori:
(1) Anton Razzhigaev, AIRI a Skoltech;
(2) Arsenij Šachmatov, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) Vladimir Arkhipkin, Sber AI;
(5) Igor Pavlov, Sber AI;
(6) Iľja Rjabov, Sber AI;
(7) Angelina Kuts, Sber AI;
(8) Alexander Panchenko, AIRI a Skoltech;
(9) Andrey Kuznetsov, AIRI a Sber AI;
(10) Denis Dimitrov, AIRI a Sber AI.
Poznámka editora: Toto je časť 1 z 8 štúdie, ktorá podrobne popisuje vývoj Kandinsky, prvej architektúry text-to-image navrhnutej pomocou kombinácie predchádzajúcej a latentnej difúzie. Prečítajte si zvyšok nižšie.
Generovanie textu na obrázok je významnou doménou moderného počítačového videnia a dosiahlo podstatné zlepšenia prostredníctvom vývoja generatívnych architektúr. Medzi nimi sú modely založené na difúzii, ktoré preukázali zásadné zlepšenie kvality. Tieto modely sú vo všeobecnosti rozdelené do dvoch kategórií: prístupy na úrovni pixelov a prístupy na úrovni latentov. Predstavujeme Kandinsky[1], nový výskum architektúry latentnej difúzie, ktorý kombinuje princípy modelov predchádzajúcich obrazov s technikami latentnej difúzie. Model pred obrázkom je trénovaný samostatne na mapovanie vložených textov na vložené obrázky CLIP. Ďalšou charakteristickou črtou navrhovaného modelu je modifikovaná implementácia MoVQ, ktorá slúži ako komponent autokódovača obrazu. Celkovo navrhnutý model obsahuje 3,3B parametrov. Nasadili sme aj užívateľsky prívetivý demo systém, ktorý podporuje rôzne generatívne režimy, ako je generovanie textu na obrázok, fúzia obrázkov, fúzia textu a obrázkov, generovanie variácií obrázkov a maľovanie/prekresľovanie textom. Okrem toho sme vydali zdrojový kód a kontrolné body pre modely Kandinsky. Experimentálne hodnotenia demonštrujú skóre FID 8,03 na súbore údajov COCO-30K, čím sa náš model označuje ako najlepší open source výkon z hľadiska merateľnej kvality generovania obrazu.
V pomerne krátkom čase sa generačné schopnosti modelov na prevod textu na obrázok podstatne zlepšili, čo používateľom poskytuje fotorealistickú kvalitu, rýchlosť takmer v reálnom čase, veľké množstvo aplikácií a funkcií vrátane jednoduchého a ľahko použiteľného webu. platformy a sofistikované grafické editory AI.
Tento článok predstavuje náš jedinečný výskum dizajnu architektúry latentnej difúzie, ktorý ponúka nový a inovatívny pohľad na túto dynamickú oblasť štúdia. Najprv popíšeme novú architektúru Kandinského a jej detaily. Opísaný je aj demo systém s implementovanými funkciami modelu. Po druhé, ukážeme experimenty, ktoré sa uskutočnili z hľadiska kvality generovania obrazu a prišli s najvyšším skóre FID spomedzi existujúcich modelov s otvoreným zdrojovým kódom. Okrem toho predstavujeme dôslednú ablačnú štúdiu predchádzajúcich nastavení, ktorú sme vykonali, čo nám umožňuje starostlivo analyzovať a vyhodnotiť rôzne konfigurácie, aby sme dospeli k najefektívnejšiemu a najprepracovanejšiemu dizajnu modelu.
Naše príspevky sú nasledovné:
• Predstavujeme prvú architektúru text-to-image navrhnutú pomocou kombinácie predchádzajúcej a latentnej difúzie obrazu.
• Preukazujeme experimentálne výsledky porovnateľné s najmodernejšími (SotA) modelmi, ako sú Stable Diffusion, IF a DALL-E 2, pokiaľ ide o metriku FID a dosahujeme skóre SotA medzi všetkými existujúcimi modelmi s otvoreným zdrojom.
• Poskytujeme softvérovú implementáciu navrhovanej najmodernejšej metódy na generovanie textu na obrázok a uvádzame na trh vopred pripravené modely, ktoré sú jedinečné medzi metódami topperformingu. Licencia Apache 2.0 umožňuje používať model na nekomerčné aj komerčné účely.2 3
• Vytvárame webovú aplikáciu na úpravu obrázkov, ktorú je možné použiť na interaktívne generovanie obrázkov textovými výzvami (podporuje sa anglický a ruský jazyk) na základe navrhovanej metódy a poskytuje funkcionalitu inpainting/outpainting.4 Video ukážka je dostupná na YouTube.5
Tento dokument je dostupný na arxiv pod licenciou CC BY 4.0 DEED.
[1] Systém je pomenovaný po Wassily Kandinskom, slávnom maliarovi a teoretikovi umenia.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU