Autores:
(1) Anton Razzhigaev, AIRI y Skoltech;
(2) Arseniy Shakhmatov, Sber AI;
(3) Anastasia Maltseva, Sber AI;
(4) Vladimir Arkhipkin, Sber AI;
(5) Igor Pavlov, Sber AI;
(6) Ilya Ryabov, Sber AI;
(7) Angelina Kuts, Sber AI;
(8) Alexander Panchenko, AIRI y Skoltech;
(9) Andrey Kuznetsov, AIRI y Sber AI;
(10) Denis Dimitrov, AIRI y Sber AI.
Nota del editor: Esta es la primera parte de ocho de un estudio que detalla el desarrollo de Kandinsky, la primera arquitectura de texto a imagen diseñada utilizando una combinación de difusión latente y previa de la imagen. Lea el resto a continuación.
La generación de texto a imagen es un dominio importante en la visión artificial moderna y ha logrado mejoras sustanciales a través de la evolución de las arquitecturas generativas. Entre ellas, hay modelos basados en difusión que han demostrado mejoras esenciales en la calidad. Estos modelos generalmente se dividen en dos categorías: enfoques a nivel de píxel y a nivel latente. Presentamos Kandinsky[1], una nueva exploración de la arquitectura de difusión latente, que combina los principios de los modelos a priori de imagen con técnicas de difusión latente. El modelo a priori de imagen se entrena por separado para mapear incrustaciones de texto a incrustaciones de imagen de CLIP. Otra característica distintiva del modelo propuesto es la implementación de MoVQ modificada, que sirve como componente de autocodificador de imagen. En general, el modelo diseñado contiene 3.3B parámetros. También implementamos un sistema de demostración fácil de usar que admite diversos modos generativos, como generación de texto a imagen, fusión de imágenes, fusión de texto e imagen, generación de variaciones de imagen y pintura interior/exterior guiada por texto. Además, publicamos el código fuente y los puntos de control para los modelos Kandinsky. Las evaluaciones experimentales demuestran una puntuación FID de 8,03 en el conjunto de datos COCO-30K, lo que marca a nuestro modelo como el de código abierto con mejor desempeño en términos de calidad de generación de imágenes medibles.
En un período de tiempo bastante corto, las capacidades generativas de los modelos de texto a imagen han mejorado sustancialmente, brindando a los usuarios una calidad fotorrealista, una velocidad de inferencia casi en tiempo real, una gran cantidad de aplicaciones y funciones, incluidas plataformas basadas en web simples y fáciles de usar y sofisticados editores de gráficos de IA.
Este artículo presenta nuestra investigación única sobre el diseño de la arquitectura de difusión latente, ofreciendo una perspectiva fresca e innovadora sobre este dinámico campo de estudio. En primer lugar, describimos la nueva arquitectura de Kandinsky y sus detalles. También se describe el sistema de demostración con las características implementadas del modelo. En segundo lugar, mostramos los experimentos realizados en términos de calidad de generación de imágenes y llegamos al puntaje FID más alto entre los modelos de código abierto existentes. Además, presentamos el riguroso estudio de ablación de configuraciones anteriores que realizamos, lo que nos permitió analizar y evaluar cuidadosamente varias configuraciones para llegar al diseño de modelo más efectivo y refinado.
Nuestras contribuciones son las siguientes:
• Presentamos la primera arquitectura de texto a imagen diseñada utilizando una combinación de difusión latente y previa de imagen.
• Demostramos resultados experimentales comparables a los modelos de última generación (SotA) como Stable Diffusion, IF y DALL-E 2, en términos de métrica FID y logramos la puntuación SotA entre todos los modelos de código abierto existentes.
• Ofrecemos una implementación de software del método de última generación propuesto para la generación de texto a imagen y publicamos modelos preentrenados, que son únicos entre los métodos de mejor rendimiento. La licencia Apache 2.0 permite utilizar el modelo tanto con fines comerciales como no comerciales.2 3
• Creamos una aplicación de edición de imágenes web que se puede utilizar para la generación interactiva de imágenes mediante indicaciones de texto (se admiten los idiomas inglés y ruso) sobre la base del método propuesto, y proporciona la funcionalidad de pintar hacia adentro o hacia afuera.4 La demostración en video está disponible en YouTube.5
Este artículo está disponible en arxiv bajo la licencia CC BY 4.0 DEED.
[1] El sistema lleva el nombre de Wassily Kandinsky, un famoso pintor y teórico del arte.
[2] https://github.com/ai-forever/Kandinsky-2
[3] https://huggingface.co/kandinsky-community
[4] https://fusionbrain.ai/en/editor
[5] https://www.youtube.com/watch?v=c7zHPc59cWU