paint-brush
Google presenta su modelo de texto a video más prometedor hasta el momento: Lumierepor@aibites
1,353 lecturas
1,353 lecturas

Google presenta su modelo de texto a video más prometedor hasta el momento: Lumiere

por Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

Demasiado Largo; Para Leer

¿Te gustaría ver a Mona Lisa sonreír como una bruja? ¿O le gustaría que la chica del pendiente de perlas le guiñara un ojo y sonriera? Google acaba de lanzar un modelo de generación de vídeo llamado Lumiere [1] que es capaz de hacerlo todo por ti. Aunque es principalmente un modelo de texto a video, puede hacer mucho más que eso. Dada una imagen de referencia con un mensaje, puede estilizar sus videos copiando el estilo de la imagen de referencia a sus videos.
featured image - Google presenta su modelo de texto a video más prometedor hasta el momento: Lumiere
Shrinivasan Sankar HackerNoon profile picture

Introducción

¿Te gustaría ver a Mona Lisa sonreír como una bruja? ¿O le gustaría que la chica del pendiente de perlas le guiñara un ojo y sonriera? Google acaba de lanzar un modelo de generación de vídeo llamado Lumiere [1] que es capaz de hacerlo todo por ti.


Aunque es principalmente un modelo de texto a video, puede hacer mucho más que eso. Dada una imagen de referencia con un mensaje, puede estilizar sus videos copiando el estilo de la imagen de referencia a sus videos.


Incluso puedes editar tus videos con un solo mensaje. El modelo es Lumiaire. Incluso es capaz de animar objetos dentro de una región especificada por el usuario en una imagen, una técnica llamada Cinemagraphs.


Cuando se trata de pintar, Lumiere es incluso capaz de razonar sobre un objeto que falta por completo, como un pastel en este ejemplo.


Todo se reduce a un modelo de difusión con una novedosa arquitectura espacio-temporal U-Net [3]. Es una personalización de la arquitectura U-Net para resolver el problema de coherencia temporal que prevalece en los modelos de generación de vídeo.

Explicación visual

Se encuentra disponible una explicación visual del artículo de Lumiere, la arquitectura del modelo y los resultados.

Entonces, ¿qué es la coherencia temporal?

Todos sabemos que los vídeos son una secuencia de imágenes. Entonces, tomemos una secuencia de imágenes que se muestran en la fila superior de la figura anterior. Si reducimos solo una fila en la imagen, que se indica con la línea verde que va de izquierda a derecha, necesitamos ver una transición suave en los valores de píxeles entre las imágenes de la secuencia.


Si la transición es suave, entonces no veremos un efecto de salto mientras miramos el vídeo.


Por ejemplo, si tomamos Stable Video Diffusion [2] y vemos el vídeo de un astronauta caminando sobre la luna (arriba), podemos ver que sus manos simplemente desaparecen entre fotogramas. En otras palabras, falta coherencia temporal entre fotogramas.


Este tipo de inconsistencia temporal entre el tiempo y la intensidad en la dirección x se puede representar como el segmento XT, como se resalta en la figura anterior. Y si hay inconsistencia temporal, se resalta en la trama del segmento XT.


Lumiere aborda este problema introduciendo un modelo de difusión espacio-temporal y una arquitectura U-Net modificada presente en el modelo de difusión.

Canalización de un texto a vídeo

Antes de entrar en detalles, comencemos con el proceso típico de un modelo de generación de texto a video.

Estos canales toman muestras de cada quinto fotograma como fotogramas clave de la secuencia de vídeo de entrada y entrenan un modelo base que puede generar estos fotogramas clave con una resolución tan baja como 128 por 128 a sólo 3 fotogramas por segundo.


Luego se utiliza la superresolución temporal para aumentar la velocidad de fotogramas prediciendo los fotogramas intermedios. Entonces la velocidad de cuadros ahora es de 16 cuadros por segundo.


Luego, la resolución espacial de estos fotogramas se incrementa hasta, digamos, 1024 por 1024 mediante una red de superresolución espacial (SSR) que finalmente conduce a nuestro video generado.


El modelo base utilizado en este marco suele ser un modelo de difusión que a su vez tiene una U-Net en su interior.

El oleoducto propuesto de Lumiere

La tubería propuesta de Lumiere, por otro lado, procesa todos los fotogramas a la vez sin perder fotogramas. Para hacer frente al coste computacional de procesar todos los fotogramas, la arquitectura del modelo de difusión base se modifica para generar la arquitectura espacio-temporal UNet o STUNet.


Como STUNet se ocupa de todos los fotogramas de entrada, se elimina la necesidad de superresolución temporal o TSR. Entonces, el oleoducto todavía tiene la superresolución espacial o SSR. Pero la novedad es la introducción de MultiDiffusion.

De U-Net a STUNet

Repasemos rápidamente la U-Net antes de mirar la U-Net del espacio-tiempo. La entrada a U-Net es una imagen tridimensional con ancho W, alto H y canales RGB. Después de cada etapa de doble convolución de U-Net, aplicamos la agrupación máxima para reducir la muestra o la dimensión espacial de las características. Este paso de reducción de la dimensión espacial está indicado por las flechas rojas.


De manera similar, durante la etapa de decodificador, hay convoluciones ascendentes para aumentar o aumentar la resolución hasta el tamaño de la entrada.

Cuando se trata de vídeos, tenemos una dimensión adicional en la entrada que es el tiempo. por lo tanto, el espacio-tiempo U-Net propone reducir y aumentar la muestra del video no solo en la dimensión espacial sino también en la dimensión del tiempo T. Esta es la idea principal del cambio de tamaño temporal y es la principal contribución de este artículo de Lumiere.


Para cambiar el tamaño, utilizan la agrupación 3D en lugar de la agrupación 2D, ya que la entrada ahora tiene una dimensión adicional.


Como a mí, os sorprenderá la sencillez de la idea. Los propios autores han mencionado en el artículo:

Sorprendentemente, los modelos T2V anteriores han pasado por alto esta elección de diseño, que sigue la convención de incluir solo operaciones espaciales de muestreo ascendente y descendente en la arquitectura, y mantener una resolución temporal fija en toda la red.

Implementación

Vayamos a algunos de los matices de la implementación. Utilizan convolución factorizada presentada en este artículo llamada Modelos de difusión de video. La idea es convertir cada convolución 2D en una convolución 3D de solo espacio, por ejemplo, cambiando cada convolución de 3x3 a una convolución de 1x3x3.


Para la atención, después de cada bloque de atención espacial, insertamos un bloque de atención temporal que presta atención sobre el primer eje y trata los ejes espaciales como ejes por lotes.

Con esos dos cambios, los bloques de convolución factorizados se agregan al modelo previamente entrenado y solo las capas adicionales se entrenan con los pesos de las capas previamente entrenados fijos.


La segunda novedad del artículo es la MultiDiffusión introducida durante la superresolución espacial. Si tomamos los modelos de generación de vídeo anteriores a lumiere, el modelo de superresolución espacial toma una secuencia de fotogramas.


Sin embargo, las secuencias no se superponían. Por ejemplo, los primeros 8 fotogramas y los siguientes 8 fotogramas tomados como entrada por el módulo SSR están separados sin superposición alguna.


Pero cuando se trata de Lumiere, los primeros 8 fotogramas y los segundos 8 fotogramas tienen una superposición de dos fotogramas. Al hacer esto, el modelo espacial de superresolución parece lograr transiciones suaves entre los segmentos temporales. Esto es lo que en el artículo se denomina multidifusión.

Aplicaciones

La combinación de las dos técnicas propuestas junto con la ausencia de una arquitectura de modelo de difusión en cascada que prevalece en arquitecturas anteriores, como la imagen y el vídeo, conduce a bastantes aplicaciones variadas.


Por ejemplo:

  • El modelo puede convertir texto en videos con mensajes como “un astronauta caminando por el planeta Marte dando un rodeo alrededor de su base” o “un perro conduciendo un automóvil con divertidas gafas de sol”.


  • Puede convertir imágenes en videos junto con un mensaje de texto como "Una niña guiñando un ojo y sonriendo".


  • Puede estilizar la generación con una imagen de referencia y un mensaje de texto como "un oso bailando". Hablando de Cinemagraphs, puede animar regiones seleccionadas por el usuario, como fuego o vapor.


  • Incluso puede editar los vestidos que usan las personas con un solo mensaje.

Evaluación

Para evaluar el modelo cuantitativamente, el modelo se ejecutó a través de un estudio de usuarios donde los usuarios compararon los resultados del modelo propuesto con algunos modelos de última generación como Pika, ZeroScope o difusión de video estable. Los resultados indican que los usuarios prefirieron el modelo Lumiere tanto en el caso de texto a vídeo como de imagen a vídeo.

Conclusión

Entonces, para concluir, aparte de todos los trucos de los videos promocionales, como la sonriente Monalisa, la contribución de este artículo es bastante simple. En una sola línea, el artículo introduce una reducción de resolución del canal temporal.


Esto, junto con MultiDiffusion, que no es más que fotogramas superpuestos introducidos en el modelo de superresolución, genera vídeos de alta fidelidad que son temporalmente consistentes.


Lo que me hubiera gustado ver en el artículo son algunos estudios de ablación que muestren los resultados con y sin el proceso de multidifusión.


Eso nos lleva al final de este artículo. La próxima vez que alguien te hable de Lumiere, sabrás qué decir en una sola línea. Espero que haya proporcionado una idea del modelo Lumiere.


Nos vemos en mi próxima, hasta entonces, cuídense…

Referencias

[1] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri, Un modelo de difusión espacio-temporal para la generación de vídeo (2024), preimpresión de arXiv.


[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach, Difusión de vídeo estable: ampliación de modelos de difusión de vídeo latente a grandes conjuntos de datos (2023), preimpresión de arXiv.


[3] Olaf Ronneberger, Philipp Fischer y Thomas Brox, U-Net: redes convolucionales para la segmentación de imágenes biomédicas (2015), Conferencia internacional sobre informática de imágenes médicas e intervención asistida por computadora.


También publicado aquí