Qillqirinaka:
(1) Anton Razzhigaev, AIRI ukat Skoltech ukanakan irnaqiri;
(2) Arseniy Shakhmatov, Sber AI ukat yaqhanakampi;
3) Anastasia Maltseva, Sber AI ukat juk’ampinaka;
4) Vladimir Arkhipkin, Sber AI ukat yaqhanakampi;
(5) Igor Pavlov, Sber AI ukat yaqhanakampi;
(6) Ilya Ryabov, Sber AI ukat juk’ampinaka;
(7) Angelina Kuts, Sber AI ukat juk’ampinaka;
(8) Alexander Panchenko, AIRI ukat Skoltech ukanakan irnaqiri;
(9) Andrey Kuznetsov, AIRI ukat Sber AI;
(10) Denis Dimitrov, AIRI ukat Sber AI.
Editoran yatiyawipa: Akax 8 t’aqa 1r t’aqawa, Kandinsky ukan nayrar sartawipatw qhanañcht’i, nayrïr arquitectura texto-imagen ukawa, ukax mä combinación de difusión de imagen previa ukat difusión latente ukampiw lurasiwayi. Jichhax akham uñakipt’añäni.
Texto-imagen generación ukax jichha pacha computadora ukan uñjañanx mä jach’a dominio ukhamawa ukatx arquitecturas generativas ukan evolución ukampix jach’a askinak jikxatawayi. Ukanaka taypinxa, modelos basados en difusión ukanakawa utji, ukaxa uñacht’ayiwa wakiskiri calidad ukanaka jach’anchayañataki. Aka modelos ukax aksa tuqinx pä tuqitw jaljasi: nivel de pixel ukatx nivel latente uka uñakipañanaka. Jiwasax Kandinsky[1], mä novela exploración arquitectura de difusión latente ukan uñacht’ayapxtanwa, ukax modelos de imagen previo ukan principios ukanakamp técnicas de difusión latente ukamp mayachthapitawa. Modelo previo de imagen ukax sapa mayniw yatichasi, CLIP ukan qillqat uñt’ayat uñacht’äwinakar uñt’ayañataki. Yaqha mayjt’awix modelo propuesto ukax MoVQ ukan modificado ukan phuqhawipawa, ukax componente autocodificador de imagen ukham irnaqaraki. Taqi kuna, modelo diseñado ukax 3.3B parámetros ukaniwa. Ukhamarakiw mä sistema de demostración usuario-friendly ukar uñstayapxta, ukax kunayman modos generativos ukanakaruw yanapt’i, kunjamakitix texto-imagen generación, imagen fusión, texto ukat imagen fusión, imagen variaciones generación, ukat texto-guided inpainting/outpainting. Ukhamarus, modelos Kandinsky ukatakix código fuente ukat puntos de control ukanak apsusipxta. Yant’awi chiqanchawinakax mä FID 8,03 ukja uñacht’ayi COCO-30K ukan yatiyawipanxa, ukax jiwasan modelo ukarux jach’a lurayiriw código abierto ukan chimpuntata, kunatix calidad de generación de imágenes medibles ukanx.
Mä juk’a pachanxa, generativa capacidades de modelos texto-imagen ukaxa wali sumawa, apnaqirinakaruxa calidad fotorealista, niya chiqapa pacha inferencia velocidad, mä jach’a jakhuwi aplicaciones ukhamaraki características, ukhamaraki web simple fácil de usar -based plataformas ukat sofisticados editores gráficos AI ukanakaw utji.
Aka qillqatax jiwasan jan uñt’at yatxatäwinak uñacht’ayi, diseño de arquitectura de difusión latente ukanxa, ukax mä machaq ukhamarak machaq uñakipäwiw aka campo dinámico de estudio ukanx uñacht’ayi. Nayraqatax Kandinsky machaq arquitectura ukat detalles ukanakat qhanañcht’apxta. Sistema demostrativo ukax modelo ukan phuqhat uñacht’awinakapampix qhanañchatarakiwa. Payïri, yant’awinak uñacht’ayapxtanxa, luratanakax calidad de generación de imágenes ukat jutapxiw juk’amp jach’a puntuación FID ukampiw utji modelos de código abierto ukanakat sipansa. Ukhamaraki, uñacht’ayapxaraktwa riguroso estudio de ablación nayra configuración ukanaka lurata, ukhamata suma uñakipaña ukhamaraki uñakipaña kunaymana configuraciones ukanaka puriñapataki diseño modelo juk’ampi efectivo ukhamaraki refinado.
Jiwasan yanapt’awinakax akanakawa:
• Nayrïr arquitectura texto-imagen uñacht’ayapxtanwa, ukax mä combinación de difusión de imagen previa y latente ukampiw lurasi.
• Uñacht’ayapxiwa yant’awi lurawixa uñakipata aka modelos estado de la técnica (SotA) ukanakampi ukhamaraki Difusión Estable, IF, ukhamaraki DALL-E 2, ukhamaraki métrica FID tuqita ukhamaraki puriraki aka puntuación SotA taqi utjki uka modelos de código abierto ukanaka taypina.
• Jiwasaxa churapxtanwa mä software phuqhawi aka amtawi estado de arte uka lurawi texto-imagen generación ukataki, ukhamaraki apsutarakiwa modelos pre-entrenadas, ukaxa sapa mayniwa topperforming lurawi taypina. Apache 2.0 licencia ukaxa modelo uka apnaqañatakixa janiwa alxañataki ukhamaraki alxañatakikiti.2 3
• Jiwasaxa lurapxtanwa mä aplicación editor de imágenes web ukaxa lurasirakispawa generación interactiva de imágenes ukatakixa texto promptas ukampi (inglés ukatxa ruso arunakaxa yanapt’atawa) uka amtawi lurawimpi, ukatxa funcionalidad inpainting/outpainting ukampi churatarakiwa.4 Video uñacht’ayawixa utjiwa YouTube.5
Aka qillqatax arxiv ukan CC BY 4.0 DEED licencia ukan uñt’ayatawa .
[1] Sistema ukax Wassily Kandinsky, wali uñt’at pintor ukhamarak teórico de arte ukanakat sutinchatawa.
[2] https://github.com/ai-wiñaya/Kandinsky-2
[3] https://huggingface.co/kandinsky-ayllun uñt'ayata
[4] https://fusionbrain.ai/en/editor ukax mä jach’a uñacht’äwiwa
[5] https://www.youtube.com/uñakipt'añataki?v=c7zHPc59cWU