Saiu o novo modelo make-a-video da Meta AI e em uma única frase: gera vídeos a partir de texto . Não só é capaz de gerar vídeos, mas também é o novo método de última geração, produzindo vídeos de maior qualidade e mais coerentes do que nunca!
Você pode ver este modelo como um modelo de difusão estável para vídeos. Certamente o próximo passo depois de poder gerar imagens. Essas são todas as informações que você já deve ter visto em algum site de notícias ou apenas lendo o título da matéria, mas o que você ainda não sabe é o que é exatamente e como funciona.
Veja como...
►Leia o artigo completo: https://www.louisbouchard.ai/make-a-video/
► Postagem no blog da Meta: https://ai.facebook.com/blog/generative-ai-text-to-video/
►Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO: GERAÇÃO DE TEXTO PARA VÍDEO SEM DADOS DE TEXTO-VÍDEO", https://makeavideo.studio/Make-A-Video.pdf
►Make-a-video (página oficial): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Implementação do Pytorch: https://github.com/lucidrains/make-a-video-pytorch
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/
0:00
a nova modelo de methias faz um vídeo saiu
0:03
e em uma única frase gera
0:05
vídeos de texto não é possível
0:07
gerar vídeos, mas também é o novo
0:09
método de ponta que produz maior
0:11
vídeos de qualidade e mais coerentes do que
0:14
sempre você pode ver este modelo como um estável
0:16
modelo de difusão para vídeos com certeza o
0:19
próximo passo depois de ser capaz de gerar
0:21
imagens é assim que informações você deve
0:23
já viu em um site de notícias ou
0:26
só de ler o título do vídeo
0:28
mas o que você ainda não sabe é o que é
0:30
exatamente e como funciona faz um video
0:33
é a publicação mais recente do met
0:35
III e permite gerar um
0:37
vídeo curto de entradas de texto apenas
0:40
assim você está adicionando complexidade
0:42
ao teste de geração de imagem não só
0:45
ter que gerar vários quadros de
0:47
o mesmo assunto e cena, mas também
0:49
tem que ser coerente no tempo você não pode
0:51
simplesmente gere 60 imagens usando dally
0:53
e gerar um vídeo, ele apenas parecerá
0:56
ruim e nada realista você precisa de um
0:58
modelo que entende o mundo de uma
1:00
maneira melhor e aproveita esse nível de
1:02
compreensão para gerar uma
1:04
série de imagens que combinam bem
1:06
juntos, você basicamente deseja simular
1:08
um mundo e, em seguida, simular gravações de
1:11
mas como você pode fazer isso normalmente você
1:14
vai precisar de toneladas de pares de texto e vídeo para
1:16
treine seu modelo para gerar esses vídeos
1:18
da entrada textual, mas não neste caso
1:21
uma vez que este tipo de dados é realmente
1:23
difícil de conseguir e os custos de treinamento
1:25
são super caros eles abordam isso
1:27
problema de forma diferente, outra maneira é
1:30
pegue o melhor modelo de texto para imagem e
1:32
adaptá-lo para vídeos e é isso que eu encontrei
1:35
fizeram em um trabalho de pesquisa que eles apenas
1:38
liberou no caso deles o texto para imagem
1:40
model é um outro model por meta chamado
1:43
revista que eu cobri em um anterior
1:45
vídeo se você gostaria de aprender mais sobre
1:47
mas como você adapta tal modelo para
1:50
levar tempo em consideração você adiciona um
1:53
pipeline temporal espacial para o seu modelo
1:55
para poder processar vídeos, isso significa
1:58
que o modelo não apenas gerará um
2:00
imagem, mas neste caso 16 deles em baixa
2:03
resolução para criar um breve e coerente
2:06
vídeo de maneira semelhante a um texto para
2:08
modelo de imagem, mas adicionando um unidimensional
2:11
convolução junto com o regular
2:13
bidimensional a adição simples
2:15
lhes permite manter o pré-treinado
2:17
convoluções bidimensionais o mesmo
2:19
e adicionar uma dimensão temporal que eles
2:22
vai treinar do zero reutilizando a maior parte
2:25
o código e os parâmetros dos modelos do
2:27
modelo de imagem que eles começaram nós também
2:30
quer guiar Nossas Gerações com texto
2:32
entrada que será muito semelhante a
2:34
modelos de imagem usando incorporações de clipe a
2:37
processo que vou detalhadamente no meu estábulo
2:39
vídeo de difusão se você não estiver familiarizado
2:41
com o problema deles, mas eles também serão
2:43
adicionando a dimensão temporal quando
2:45
combinando os recursos de texto com os
2:47
recursos de imagem fazendo a mesma coisa
2:49
mantendo o módulo de atenção que descrevi
2:52
no meu vídeo faça uma cena e adicione um
2:55
módulo de atenção unidimensional ou
2:57
considerações temporais copie e cole o
3:00
modelo de gerador de imagem e duplicação
3:02
os módulos de geração para mais um
3:04
Dimensão para ter todas as nossas 16 iniciais
3:07
quadros, mas o que você pode fazer com 16
3:10
quadros bem nada realmente interessante
3:13
precisamos fazer um vídeo em alta definição
3:16
fora desses quadros o modelo fará
3:19
que ao ter acesso a pré-visualizações e
3:21
quadros futuros e iterativamente
3:23
interpolando de ambos em termos de
3:27
Dimensões temporais e espaciais no
3:30
mesmo tempo, basicamente gerando novos
3:33
e quadros maiores entre aqueles
3:35
16 quadros iniciais com base nos quadros
3:38
antes e depois deles que irão
3:40
fascinam tornando o movimento coerente
3:43
e vídeo geral arruinado isso é feito
3:45
usando uma rede de interpolação de quadros
3:47
que também descrevi em outros vídeos
3:50
mas basicamente tirará as imagens que
3:52
possuem e preenchem lacunas gerando em
3:54
entre as informações ele fará o mesmo
3:57
coisa para um componente espacial ampliando
3:59
a imagem e preenchendo as lacunas de pixel para
4:02
torná-lo mais alta definição
4:04
assim, para resumir o ajuste fino de um texto para
4:07
modelo de imagem para geração de vídeo este
4:09
significa que eles já usam um modelo poderoso
4:12
treinou e adaptou e treinou um pouco
4:14
um pouco mais para se acostumar com os vídeos
4:16
retreinamento será feito com unlabeled
4:19
vídeos apenas para ensinar o modelo para
4:21
entender vídeos e quadro de vídeo
4:23
consistência que torna o conjunto de dados
4:25
processo de construção muito mais simples do que nós
4:27
usar mais uma vez um modelo otimizado de imagem
4:30
para melhorar a resolução espacial em nosso
4:32
último componente de interpolação de quadro para
4:35
adicione mais quadros para tornar o vídeo fluido
4:38
claro que os resultados ainda não são perfeitos
4:40
assim como modelos de texto para imagem, mas nós
4:43
sabe o quão rápido o progresso vai isso foi
4:45
apenas uma visão geral de como me conheci
4:47
abordou com sucesso o texto para vídeo
4:49
tarefa neste grande papel todos os links
4:52
estão na descrição abaixo se você
4:53
gostaria de saber mais sobre sua abordagem
4:55
na implementação do pytorch também é
4:57
já está sendo desenvolvido pela comunidade
4:59
também, então fique atento para isso se você
5:02
gostaria de implementá-lo você mesmo obrigado
5:04
por assistir o vídeo inteiro e eu vou
5:06
até a próxima com outro incrível
5:08
papel