Autori:  (1) Anton Razzhigaev, AIRI a Skoltech;  (2) Arsenij Šachmatov, Sber AI;  (3) Anastasia Maltseva, Sber AI;  (4) Vladimir Arkhipkin, Sber AI;  (5) Igor Pavlov, Sber AI;  (6) Iľja Rjabov, Sber AI;  (7) Angelina Kuts, Sber AI;  (8) Alexander Panchenko, AIRI a Skoltech;  (9) Andrey Kuznetsov, AIRI a Sber AI;  (10) Denis Dimitrov, AIRI a Sber AI.   Poznámka editora: Toto je časť 1 z 8 štúdie, ktorá podrobne popisuje vývoj Kandinsky, prvej architektúry text-to-image navrhnutej pomocou kombinácie predchádzajúcej a latentnej difúzie. Prečítajte si zvyšok nižšie.  Tabuľka odkazov   Abstrakt a úvod   Súvisiace práce   Demo systém   Kandinského architektúra   Experimenty   Výsledky   Záver a obmedzenia   Etické úvahy, uznania a referencie  Abstraktné  Generovanie textu na obrázok je významnou doménou moderného počítačového videnia a dosiahlo podstatné zlepšenia prostredníctvom vývoja generatívnych architektúr. Medzi nimi sú modely založené na difúzii, ktoré preukázali zásadné zlepšenie kvality. Tieto modely sú vo všeobecnosti rozdelené do dvoch kategórií: prístupy na úrovni pixelov a prístupy na úrovni latentov. Predstavujeme Kandinsky[1], nový výskum architektúry latentnej difúzie, ktorý kombinuje princípy modelov predchádzajúcich obrazov s technikami latentnej difúzie. Model pred obrázkom je trénovaný samostatne na mapovanie vložených textov na vložené obrázky CLIP. Ďalšou charakteristickou črtou navrhovaného modelu je modifikovaná implementácia MoVQ, ktorá slúži ako komponent autokódovača obrazu. Celkovo navrhnutý model obsahuje 3,3B parametrov. Nasadili sme aj užívateľsky prívetivý demo systém, ktorý podporuje rôzne generatívne režimy, ako je generovanie textu na obrázok, fúzia obrázkov, fúzia textu a obrázkov, generovanie variácií obrázkov a maľovanie/prekresľovanie textom. Okrem toho sme vydali zdrojový kód a kontrolné body pre modely Kandinsky. Experimentálne hodnotenia demonštrujú skóre FID 8,03 na súbore údajov COCO-30K, čím sa náš model označuje ako najlepší open source výkon z hľadiska merateľnej kvality generovania obrazu.  1 Úvod  V pomerne krátkom čase sa generačné schopnosti modelov na prevod textu na obrázok podstatne zlepšili, čo používateľom poskytuje fotorealistickú kvalitu, rýchlosť takmer v reálnom čase, veľké množstvo aplikácií a funkcií vrátane jednoduchého a ľahko použiteľného webu. platformy a sofistikované grafické editory AI.  Tento článok predstavuje náš jedinečný výskum dizajnu architektúry latentnej difúzie, ktorý ponúka nový a inovatívny pohľad na túto dynamickú oblasť štúdia. Najprv popíšeme novú architektúru Kandinského a jej detaily. Opísaný je aj demo systém s implementovanými funkciami modelu. Po druhé, ukážeme experimenty, ktoré sa uskutočnili z hľadiska kvality generovania obrazu a prišli s najvyšším skóre FID spomedzi existujúcich modelov s otvoreným zdrojovým kódom. Okrem toho predstavujeme dôslednú ablačnú štúdiu predchádzajúcich nastavení, ktorú sme vykonali, čo nám umožňuje starostlivo analyzovať a vyhodnotiť rôzne konfigurácie, aby sme dospeli k najefektívnejšiemu a najprepracovanejšiemu dizajnu modelu.  Naše   sú nasledovné: príspevky  • Predstavujeme prvú architektúru text-to-image navrhnutú pomocou kombinácie predchádzajúcej a latentnej difúzie obrazu.  • Preukazujeme experimentálne výsledky porovnateľné s najmodernejšími (SotA) modelmi, ako sú Stable Diffusion, IF a DALL-E 2, pokiaľ ide o metriku FID a dosahujeme skóre SotA medzi všetkými existujúcimi modelmi s otvoreným zdrojom.  • Poskytujeme softvérovú implementáciu navrhovanej najmodernejšej metódy na generovanie textu na obrázok a uvádzame na trh vopred pripravené modely, ktoré sú jedinečné medzi metódami topperformingu. Licencia Apache 2.0 umožňuje používať model na nekomerčné aj komerčné účely.2 3  • Vytvárame webovú aplikáciu na úpravu obrázkov, ktorú je možné použiť na interaktívne generovanie obrázkov textovými výzvami (podporuje sa anglický a ruský jazyk) na základe navrhovanej metódy a poskytuje funkcionalitu inpainting/outpainting.4 Video ukážka je dostupná na YouTube.5   Tento dokument je   pod licenciou CC BY 4.0 DEED. dostupný na arxiv  [1] Systém je pomenovaný po Wassily Kandinskom, slávnom maliarovi a teoretikovi umenia.  [2] https://github.com/ai-forever/Kandinsky-2  [3] https://huggingface.co/kandinsky-community  [4] https://fusionbrain.ai/en/editor  [5] https://www.youtube.com/watch?v=c7zHPc59cWU

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AutoEncoder.tech

Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

Auto Encoder's blog

Tento zvuk je vyrobený v pôvodnom jazyku príbehu!

Ruskí vedci vyvinuli prvú architektúru textu na obrázok pomocou latentnej difúzie obrazu

About Author

KOMENTÁRE

ZAVISTE ŠTÍTKY

TENTO ČLÁNOK BOL PREDSTAVENÝ V

Related Stories

Behavior of a shapely Spider

Code Smell 298 - How to Fix Microsoft Windows Time Waste

When Blood Told

Mutmut: a Python mutation testing system

Behavior of a shapely Spider

Code Smell 298 - How to Fix Microsoft Windows Time Waste

When Blood Told

Mutmut: a Python mutation testing system

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps