Cómo transformar modelos estáticos de texto a imagen en generadores de animación dinámicos

por Model Tuning5m2024/11/18

Demasiado Largo; Para Leer

AnimateDiff presenta un módulo de movimiento plug-and-play para animar modelos de texto a imagen sin necesidad de realizar ajustes. MotionLoRA adapta aún más las animaciones a patrones específicos de manera eficiente, lo que permite realizar animaciones fluidas y de alta calidad a partir de modelos T2I personalizados.

featured image - Cómo transformar modelos estáticos de texto a imagen en generadores de animación dinámicos

Autores:

(1) Yuwei Guo, Universidad China de Hong Kong;

(2) Ceyuan Yang, Laboratorio de Inteligencia Artificial de Shanghai con autor correspondiente;

(3) Anyi Rao, Universidad de Stanford;

(4) Zhengyang Liang, Laboratorio de Inteligencia Artificial de Shanghai;

(5) Yaohui Wang, Laboratorio de Inteligencia Artificial de Shanghai;

(6) Yu Qiao, Laboratorio de Inteligencia Artificial de Shanghai;

(7) Maneesh Agrawala, Universidad de Stanford;

(8) Dahua Lin, Laboratorio de Inteligencia Artificial de Shanghai;

(9) Bo Dai, La Universidad China de Hong Kong y La Universidad China de Hong Kong.

Tabla de enlaces

Resumen y 1 Introducción

2 Trabajo relacionado

3 Preliminar

Animar diferencia

4.1 Alivie los efectos negativos de los datos de entrenamiento con el adaptador de dominio

4.2 Aprenda los antecedentes de movimiento con el módulo de movimiento

4.3 Adaptación a nuevos patrones de movimiento con MotionLora

4.4 AnimateDiff en la práctica

5 Experimentos y 5.1 Resultados cualitativos

5.2 Comparación cualitativa

5.3 Estudio ablativo

5.4 Generación controlable

6 Conclusión

7 Declaración de ética

8 Declaración de reproducibilidad, reconocimiento y referencias

ABSTRACTO

Con el avance de los modelos de difusión de texto a imagen (T2I) (por ejemplo, Stable Diffusion) y las técnicas de personalización correspondientes, como DreamBooth y LoRA, todos pueden manifestar su imaginación en imágenes de alta calidad a un costo asequible. Sin embargo, agregar dinámica de movimiento a los T2I personalizados de alta calidad existentes y permitirles generar animaciones sigue siendo un desafío abierto. En este artículo, presentamos AnimateDiff, un marco práctico para animar modelos T2I personalizados sin requerir un ajuste específico del modelo. En el núcleo de nuestro marco se encuentra un módulo de movimiento plug-and-play que se puede entrenar una vez e integrar sin problemas en cualquier T2I personalizado que se origine a partir del mismo T2I base. A través de nuestra estrategia de entrenamiento propuesta, el módulo de movimiento aprende de manera efectiva los antecedentes de movimiento transferibles de videos del mundo real. Una vez entrenado, el módulo de movimiento se puede insertar en un modelo T2I personalizado para formar un generador de animación personalizado. Además, proponemos MotionLoRA, una técnica de ajuste fino liviana para AnimateDiff que permite que un módulo de movimiento entrenado previamente se adapte a nuevos patrones de movimiento, como diferentes tipos de tomas, con un bajo costo de capacitación y recopilación de datos. Evaluamos AnimateDiff y MotionLoRA en varios modelos T2I personalizados representativos públicos recopilados de la comunidad. Los resultados demuestran que nuestros enfoques ayudan a estos modelos a generar clips de animación temporalmente suaves al tiempo que preservan la calidad visual y la diversidad de movimiento. Los códigos y los pesos entrenados previamente están disponibles en https://github.com/guoyww/AnimateDiff.

1 INTRODUCCIÓN

Los modelos de difusión de texto a imagen (T2I) (Nichol et al., 2021; Ramesh et al., 2022; Saharia et al., 2022; Rombach et al., 2022) han permitido a los artistas y aficionados crear contenido visual utilizando indicaciones de texto. Para estimular aún más la creatividad de los modelos T2I existentes, se han propuesto métodos de personalización ligeros, como DreamBooth (Ruiz et al., 2023) y LoRA (Hu et al., 2021). Estos métodos permiten realizar ajustes personalizados en pequeños conjuntos de datos utilizando hardware de consumo, como un portátil con una RTX3080, lo que permite a los usuarios adaptar un modelo T2I básico a nuevos dominios y mejorar la calidad visual a un coste relativamente bajo. En consecuencia, una gran comunidad de artistas y aficionados de la IA ha contribuido con numerosos modelos personalizados en plataformas de intercambio de modelos como Civitai (2022) y Hugging Face (2022). Si bien estos modelos T2I personalizados pueden generar una calidad visual notable, sus resultados se limitan a imágenes estáticas. Por otro lado, la capacidad de generar animaciones es más deseable en la producción del mundo real, como en las industrias cinematográficas y de dibujos animados. En este trabajo, pretendemos transformar directamente los modelos T2I personalizados de alta calidad existentes en generadores de animaciones sin necesidad de realizar ajustes específicos del modelo, lo que a menudo resulta poco práctico en términos de costos de computación y recopilación de datos para los usuarios aficionados.

Presentamos AnimateDiff, una metodología eficaz para abordar el problema de animar T2I personalizados y, al mismo tiempo, preservar su calidad visual y el conocimiento del dominio. El núcleo de AnimateDiff es un enfoque para entrenar un módulo de movimiento plug-and-play que aprende valores de movimiento anteriores razonables a partir de conjuntos de datos de video, como WebVid-10M (Bain et al., 2021). En el momento de la inferencia, el módulo de movimiento entrenado se puede integrar directamente en T2I personalizados y producir animaciones fluidas y visualmente atractivas sin necesidad de un ajuste específico. El entrenamiento del módulo de movimiento en AnimateDiff consta de tres etapas. En primer lugar, ajustamos un adaptador de dominio en el T2I base para alinearlo con la distribución visual del conjunto de datos de video de destino. Este paso preliminar garantiza que el módulo de movimiento se concentre en aprender los valores de movimiento anteriores en lugar de los detalles a nivel de píxel de los videos de entrenamiento. En segundo lugar, inflamos el T2I base junto con el adaptador de dominio e introducimos un módulo de movimiento recién inicializado para el modelado de movimiento. Luego, optimizamos este módulo en videos mientras mantenemos fijos el adaptador de dominio y los pesos T2I base. Al hacerlo, el módulo de movimiento aprende antecedentes de movimiento generalizados y puede, a través de la inserción del módulo, permitir que otros T2I personalizados generen animaciones suaves y atractivas alineadas con sus dominios personalizados. La tercera etapa de AnimateDiff, también denominada MotionLoRA, tiene como objetivo adaptar el módulo de movimiento preentrenado a patrones de movimiento específicos con una pequeña cantidad de videos de referencia e iteraciones de entrenamiento. Logramos esto ajustando el módulo de movimiento con la ayuda de la Adaptación de Bajo Rango (LoRA) (Hu et al., 2021). Sorprendentemente, la adaptación a un nuevo patrón de movimiento se puede lograr con tan solo 50 videos de referencia. Además, un modelo MotionLoRA requiere solo aproximadamente 30 M de espacio de almacenamiento adicional, lo que mejora aún más la eficiencia del uso compartido de modelos. Esta eficiencia es particularmente valiosa para los usuarios que no pueden soportar los costosos costos del preentrenamiento pero desean ajustar el módulo de movimiento para efectos específicos.

Evaluamos el rendimiento de AnimateDiff y MotionLoRA en un conjunto diverso de modelos T2I personalizados recopilados de plataformas de intercambio de modelos (Civitai, 2022; Hugging Face, 2022). Estos modelos abarcan un amplio espectro de dominios, que van desde dibujos animados en 2D hasta fotografías realistas, formando así un punto de referencia integral para nuestra evaluación. Los resultados de nuestros experimentos demuestran resultados prometedores. En la práctica, también descubrimos que una arquitectura Transformer (Vaswani et al., 2017) a lo largo del eje temporal es adecuada para capturar los antecedentes de movimiento apropiados. También demostramos que nuestro módulo de movimiento se puede integrar sin problemas con los enfoques de control de contenido existentes (Zhang et al., 2023; Mou et al., 2023) como ControlNet sin requerir capacitación adicional, lo que permite que AnimateDiff genere animaciones controlables.

En resumen, (1) presentamos AnimateDiff, una metodología práctica que permite la generación de animaciones de cualquier T2I personalizado sin necesidad de realizar ajustes específicos; (2) verificamos que una arquitectura Transformer es adecuada para modelar patrones de movimiento previos, lo que proporciona información valiosa para la generación de videos; (3) proponemos MotionLoRA, una técnica de ajuste fino liviana para adaptar módulos de movimiento preentrenados a nuevos patrones de movimiento; (4) evaluamos exhaustivamente nuestro enfoque con modelos representativos de la comunidad y lo comparamos con líneas base académicas y herramientas comerciales como Gen2 (2023) y Pika Labs (2023). Además, mostramos su compatibilidad con trabajos existentes para la generación controlable.