paint-brush
Google revela seu modelo de conversão de texto em vídeo mais promissor: Lumierepor@aibites
1,348 leituras
1,348 leituras

Google revela seu modelo de conversão de texto em vídeo mais promissor: Lumiere

por Shrinivasan Sankar7m2024/02/10
Read on Terminal Reader

Muito longo; Para ler

Você gostaria de ver Mona Lisa sorrir como uma bruxa? Ou você gostaria que a garota do brinco de pérola piscasse e sorrisse? O Google acaba de lançar um modelo de geração de vídeo chamado Lumiere [1] que é capaz de fazer tudo isso por você. Embora seja principalmente um modelo de texto para vídeo, é capaz de fazer muito mais do que isso. Dada uma imagem de referência com um prompt, ele pode estilizar seus vídeos copiando o estilo da imagem de referência para seus vídeos.
featured image - Google revela seu modelo de conversão de texto em vídeo mais promissor: Lumiere
Shrinivasan Sankar HackerNoon profile picture

Introdução

Você gostaria de ver Mona Lisa sorrir como uma bruxa? Ou você gostaria que a garota do brinco de pérola piscasse e sorrisse? O Google acaba de lançar um modelo de geração de vídeo chamado Lumiere [1] que é capaz de fazer tudo isso por você.


Embora seja principalmente um modelo de texto para vídeo, é capaz de fazer muito mais do que isso. Dada uma imagem de referência com um prompt, ele pode estilizar seus vídeos copiando o estilo da imagem de referência para seus vídeos.


Você pode até editar seus vídeos com apenas um prompt. O modelo é Lumiaire. É ainda capaz de animar objetos dentro de uma região especificada pelo usuário em uma imagem, uma técnica chamada Cinemagraphs.


Quando se trata de pintura interna, Lumière é até capaz de raciocinar sobre um objeto completamente ausente, como um bolo neste exemplo.


Tudo se resume a um modelo de difusão com uma nova arquitetura U-Net espaço-tempo [3]. É uma customização da arquitetura U-Net para resolver o problema de consistência temporal bastante prevalente em modelos de geração de vídeo.

Explicação Visual

Uma explicação visual do artigo Lumiere, a arquitetura do modelo e os resultados estão disponíveis.

Então, o que é consistência temporal?

Todos sabemos que os vídeos são uma sequência de imagens. Então, vamos pegar uma sequência de imagens mostradas na linha superior da figura acima. Se restringirmos apenas uma linha na imagem, indicada pela linha verde que vai da esquerda para a direita, precisaremos ver uma transição suave nos valores de pixel entre as imagens na sequência.


Se a transição for suave, não veremos o efeito de salto enquanto assistimos ao vídeo.


Por exemplo, se pegarmos Stable Video Diffusion [2] e vermos o vídeo de um astronauta caminhando na Lua (acima), podemos ver que suas mãos simplesmente desaparecem entre os quadros. Em outras palavras, falta consistência temporal entre os frames.


Esse tipo de inconsistência temporal entre o tempo e a intensidade na direção x pode ser plotada como a fatia XT conforme destacado na figura acima. E se houver inconsistência temporal, ela fica destacada no gráfico da fatia XT.


Lumiere resolve esse problema introduzindo um modelo de difusão espaço-tempo e uma arquitetura U-Net modificada presente no modelo de difusão.

Pipeline de texto para vídeo

Antes de entrar em detalhes, vamos começar com o pipeline típico de um modelo de geração de texto para vídeo.

Esses pipelines amostram cada quinto quadro como quadros-chave da sequência de vídeo de entrada e treinam um modelo básico que pode gerar esses quadros-chave em uma resolução tão baixa quanto 128 por 128 em apenas 3 quadros por segundo.


Em seguida, a Super Resolução temporal é usada para aumentar a taxa de quadros, prevendo os quadros intermediários. Portanto, a taxa de quadros agora é de 16 quadros por segundo.


A resolução espacial desses quadros é então aumentada para 1024 por 1024 por uma rede de superresolução espacial (SSR) que finalmente leva ao nosso vídeo gerado.


O modelo base usado nesta estrutura é geralmente um modelo de difusão que por sua vez possui uma U-Net dentro dele.

O pipeline proposto de Lumiere

O pipeline proposto do Lumiere, por outro lado, processa todos os frames de uma vez, sem descartar frames. Para lidar com o custo computacional de processamento de todos os quadros, a arquitetura do modelo de difusão base é modificada para criar a arquitetura espaço-tempo UNet ou STUNet.


Como o STUNet lida com todos os quadros de entrada, a necessidade de Super Resolução Temporal ou TSR é eliminada. Portanto, o pipeline ainda possui a super-resolução espacial ou SSR. Mas a novidade é a introdução do MultiDiffusion.

Da U-Net à STUNet

Vamos revisar rapidamente a U-Net antes de examinar a U-Net do espaço-tempo. A entrada para o U-Net é uma imagem tridimensional com largura W, altura H e canais RGB. Após cada estágio de convolução dupla da U-Net, aplicamos pooling máximo para diminuir a resolução ou reduzir a dimensão espacial dos recursos. Esta etapa de redução da dimensão espacial é indicada pelas setas vermelhas.


Da mesma forma, durante o estágio de decodificação, há convoluções para aumentar ou aumentar a resolução de volta ao tamanho da entrada.

Quando se trata de vídeos, temos uma dimensão adicional no input que é o tempo. portanto, o espaço-tempo U-Net propõe reduzir e aumentar a resolução do vídeo não apenas na dimensão espacial, mas também na dimensão do tempo T. Esta é a ideia principal do redimensionamento temporal e é a principal contribuição deste artigo do Lumiere.


Para redimensionar, eles usam pooling 3D em vez de pooling 2D, pois a entrada agora tem uma dimensão adicional.


Assim como eu, você pode se surpreender com a simplicidade da ideia. Os próprios autores mencionaram no artigo:

Surpreendentemente, esta escolha de design foi ignorada pelos modelos T2V anteriores, que seguem a convenção de incluir apenas operações espaciais de redução e aumento de amostragem na arquitetura e manter uma resolução temporal fixa em toda a rede.

Implementação

Vejamos algumas das nuances da implementação. Eles usam convolução fatorada introduzida neste artigo chamada Modelos de Difusão de Vídeo. A ideia é transformar cada convolução 2D em uma convolução 3D somente espacial, por exemplo, transformando cada convolução 3x3 em uma convolução 1x3x3.


Para a atenção, após cada bloco de atenção espacial, inserimos um bloco de atenção temporal que realiza a atenção sobre o primeiro eixo e trata os eixos espaciais como eixos de lote.

Com essas duas alterações, os blocos de convolução fatorados são adicionados ao modelo pré-treinado e apenas as camadas adicionais são treinadas com os pesos das camadas pré-treinadas fixos.


A segunda novidade do artigo é a MultiDiffusion introduzida durante a superresolução espacial. Se você pegar os modelos de geração de vídeo antes do Lumiere, o modelo de superresolução espacial pega uma sequência de quadros.


No entanto, as sequências não se sobrepuseram. Por exemplo, os primeiros 8 quadros e os próximos 8 quadros tomados como entrada pelo módulo SSR são separados sem qualquer sobreposição.


Mas quando se trata de Lumière, os primeiros 8 quadros e os segundos 8 quadros têm uma sobreposição de dois quadros. Ao fazer isso, o modelo de super-resolução espacial parece conseguir transições suaves entre os segmentos temporais. Isso é chamado de multidifusão no artigo.

Formulários

O acoplamento das duas técnicas propostas, juntamente com a ausência de uma arquitetura de modelo de difusão em cascata que é predominante em arquiteturas anteriores, como vídeo de imagem, leva a algumas aplicações variadas.


Por exemplo:

  • O modelo pode converter texto em vídeos com instruções como “um astronauta caminhando no planeta Marte fazendo um desvio em torno de sua base” ou “um cachorro dirigindo um carro usando óculos escuros engraçados”.


  • Ele pode converter imagens em vídeos junto com um prompt de texto como “Uma garota piscando e sorrindo”.


  • Ele pode estilizar a geração com uma imagem de referência e um prompt de texto como “um urso dançando”. Falando em Cinemagraphs, ele pode animar regiões selecionadas pelo usuário como fogo ou vapor.


  • Ele pode até editar vestidos que as pessoas estão usando com apenas um prompt.

Avaliação

Para avaliar o modelo quantitativamente, o modelo foi executado por meio de um estudo de usuário onde os usuários compararam os resultados do modelo proposto com alguns modelos de última geração, como Pika, ZeroScope ou difusão de vídeo estável. Os resultados indicam que os usuários preferiram o modelo Lumiere tanto no caso de texto para vídeo quanto de imagem para vídeo.

Conclusão

Então, para concluir, além de todos os vídeos promocionais, como a sorridente Monalisa, a contribuição deste artigo é bastante simples. Colocado em uma linha, o artigo introduz uma redução da resolução do canal temporal.


Isso, aliado ao MultiDiffusion, que nada mais é do que quadros sobrepostos alimentados no modelo de superresolução, gera vídeos de alta fidelidade que são temporalmente consistentes.


O que eu gostaria de ver são alguns estudos de ablação no artigo mostrando os resultados com e sem o processo multidifusão.


Isso nos leva ao final deste artigo. Na próxima vez que alguém falar com você sobre Lumière, você saberá o que dizer em uma linha. Espero que isso tenha fornecido algumas dicas sobre o modelo Lumière.


Te vejo na próxima, até lá, tome cuidado…

Referências

[1] Omer Bar-Tal, Hila Chefer, Omer Tov, Charles Herrmann, Roni Paiss, Shiran Zada, Ariel Ephrat, Junhwa Hur, Yuanzhen Li, Tomer Michaeli, Oliver Wang, Deqing Sun, Tali Dekel, Inbar Mosseri, Um modelo de difusão espaço-tempo para geração de vídeo (2024), pré-impressão arXiv.


[2] Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach, Difusão de vídeo estável: dimensionando modelos de difusão de vídeo latente para grandes conjuntos de dados (2023), pré-impressão arXiv.


[3] Olaf Ronneberger, Philipp Fischer e Thomas Brox, U-Net: Redes Convolucionais para Segmentação de Imagens Biomédicas (2015), Conferência Internacional sobre Computação de Imagens Médicas e Intervenção Assistida por Computador.


Também publicado aqui