Autori:
(1) Anton Razžigajev, AIRI i Skoltech;
(2) Arseniy Shakhmatov, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) Vladimir Arkhipkin, Sber AI;
(5) Igor Pavlov, Sber AI;
(6) Ilya Ryabov, Sber AI;
(7) Angelina Kuts, Sber AI;
(8) Alexander Panchenko, AIRI i Skoltech;
(9) Andrej Kuznjecov, AIRI i Sber AI;
(10) Denis Dimitrov, AIRI i Sber AI.
Napomena urednika: Ovo je dio 1 od 8 studije koja detaljno opisuje razvoj Kandinskog, prve arhitekture teksta u sliku dizajniranu korištenjem kombinacije prethodne i latentne difuzije slike. Ostatak pročitajte u nastavku.
Generisanje teksta u sliku je značajan domen u modernom kompjuterskom vidu i postiglo je značajna poboljšanja kroz evoluciju generativnih arhitektura. Među njima su modeli zasnovani na difuziji koji su pokazali suštinska poboljšanja kvaliteta. Ovi modeli su općenito podijeljeni u dvije kategorije: pristup na nivou piksela i pristup na latentnom nivou. Predstavljamo Kandinskog[1], novo istraživanje arhitekture latentne difuzije, kombinujući principe prethodnih modela slike sa tehnikama latentne difuzije. Prethodni model slike je obučen odvojeno da mapira ugrađivanje teksta u ugrađivanje slike CLIP-a. Još jedna posebna karakteristika predloženog modela je modifikovana implementacija MoVQ, koja služi kao komponenta autokodera slike. Sve u svemu, dizajnirani model sadrži 3.3B parametara. Također smo implementirali demo sistem prilagođen korisniku koji podržava različite generativne modove kao što su generiranje teksta u sliku, spajanje slika, spajanje teksta i slike, generiranje varijacija slika i slikanje/preslikavanje vođeno tekstom. Osim toga, objavili smo izvorni kod i kontrolne tačke za modele Kandinsky. Eksperimentalne evaluacije pokazuju FID rezultat od 8,03 na COCO-30K skupu podataka, označavajući naš model kao najbolji open-source performans u smislu mjerljivog kvaliteta generiranja slike.
U prilično kratkom vremenskom periodu, generativne sposobnosti modela teksta u sliku su se značajno poboljšale, pružajući korisnicima fotorealističan kvalitet, brzinu zaključivanja skoro u realnom vremenu, veliki broj aplikacija i funkcija, uključujući jednostavan web jednostavan za korištenje. -bazirane platforme i sofisticirani AI grafički uređivači.
Ovaj rad predstavlja naše jedinstveno istraživanje dizajna arhitekture latentne difuzije, nudeći svježu i inovativnu perspektivu na ovo dinamično polje studija. Prvo, opisujemo novu arhitekturu Kandinskog i njene detalje. Opisan je i demo sistem sa implementiranim karakteristikama modela. Drugo, prikazujemo eksperimente, izvedene u smislu kvaliteta generisanja slike i dolazimo do najvećeg FID rezultata među postojećim open-source modelima. Pored toga, predstavljamo rigoroznu studiju ablacije prethodnih podešavanja koju smo sproveli, omogućavajući nam da pažljivo analiziramo i procijenimo različite konfiguracije kako bismo došli do najefikasnijeg i rafiniranog dizajna modela.
Naši doprinosi su sljedeći:
• Predstavljamo prvu arhitekturu teksta u sliku dizajniranu upotrebom kombinacije prethodne i latentne difuzije slike.
• Pokazujemo eksperimentalne rezultate uporedive sa najsavremenijim (SotA) modelima kao što su Stable Diffusion, IF i DALL-E 2, u smislu FID metrike i postižemo SotA rezultat među svim postojećim modelima otvorenog koda.
• Obezbeđujemo softversku implementaciju predložene najsavremenije metode za generisanje teksta u sliku i izdajemo unapred obučene modele, što je jedinstveno među metodama vrhunskog formiranja. Apache 2.0 licenca omogućava korištenje modela u nekomercijalne i komercijalne svrhe.2 3
• Kreiramo web aplikaciju za uređivanje slika koja se može koristiti za interaktivno generiranje slika tekstualnim upitima (podržani su engleski i ruski jezici) na osnovu predložene metode, i pruža funkcionalnost slikanja/preslikavanja.4 Video demonstracija je dostupna na YouTube.5
Ovaj rad je dostupan na arxiv pod licencom CC BY 4.0 DEED.
[1] Sistem je nazvan po Vasiliju Kandinskom, poznatom slikaru i teoretičaru umjetnosti.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU