paint-brush
O inovador AI Film Maker da Meta: Make-A-Scenepor@whatsai
1,833 leituras
1,833 leituras

O inovador AI Film Maker da Meta: Make-A-Scene

por Louis Bouchard5m2022/10/01
Read on Terminal Reader
Read this story w/o Javascript

Muito longo; Para ler

Saiu o novo modelo make-a-video da Meta AI e em uma única frase: gera vídeos a partir de texto. Não é apenas capaz de gerar vídeos, mas também é o novo método de última geração, produzindo vídeos de maior qualidade e mais coerentes do que nunca. Essas são todas as informações que você já deve ter visto em algum site de notícias ou apenas lendo o título da matéria, mas o que você ainda não sabe é o que é exatamente e como funciona.
featured image - O inovador AI Film Maker da Meta: Make-A-Scene
Louis Bouchard HackerNoon profile picture
0-item

Saiu o novo modelo make-a-video da Meta AI e em uma única frase: gera vídeos a partir de texto . Não só é capaz de gerar vídeos, mas também é o novo método de última geração, produzindo vídeos de maior qualidade e mais coerentes do que nunca!

Você pode ver este modelo como um modelo de difusão estável para vídeos. Certamente o próximo passo depois de poder gerar imagens. Essas são todas as informações que você já deve ter visto em algum site de notícias ou apenas lendo o título da matéria, mas o que você ainda não sabe é o que é exatamente e como funciona.

Veja como...

Referências

►Leia o artigo completo: https://www.louisbouchard.ai/make-a-video/
► Postagem no blog da Meta: https://ai.facebook.com/blog/generative-ai-text-to-video/
►Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO: GERAÇÃO DE TEXTO PARA VÍDEO SEM DADOS DE TEXTO-VÍDEO", https://makeavideo.studio/Make-A-Video.pdf
►Make-a-video (página oficial): https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Implementação do Pytorch: https://github.com/lucidrains/make-a-video-pytorch
►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/newsletter/

Transcrição de vídeo

0:00

a nova modelo de methias faz um vídeo saiu

0:03

e em uma única frase gera

0:05

vídeos de texto não é possível

0:07

gerar vídeos, mas também é o novo

0:09

método de ponta que produz maior

0:11

vídeos de qualidade e mais coerentes do que

0:14

sempre você pode ver este modelo como um estável

0:16

modelo de difusão para vídeos com certeza o

0:19

próximo passo depois de ser capaz de gerar

0:21

imagens é assim que informações você deve

0:23

já viu em um site de notícias ou

0:26

só de ler o título do vídeo

0:28

mas o que você ainda não sabe é o que é

0:30

exatamente e como funciona faz um video

0:33

é a publicação mais recente do met

0:35

III e permite gerar um

0:37

vídeo curto de entradas de texto apenas

0:40

assim você está adicionando complexidade

0:42

ao teste de geração de imagem não só

0:45

ter que gerar vários quadros de

0:47

o mesmo assunto e cena, mas também

0:49

tem que ser coerente no tempo você não pode

0:51

simplesmente gere 60 imagens usando dally

0:53

e gerar um vídeo, ele apenas parecerá

0:56

ruim e nada realista você precisa de um

0:58

modelo que entende o mundo de uma

1:00

maneira melhor e aproveita esse nível de

1:02

compreensão para gerar uma

1:04

série de imagens que combinam bem

1:06

juntos, você basicamente deseja simular

1:08

um mundo e, em seguida, simular gravações de

1:11

mas como você pode fazer isso normalmente você

1:14

vai precisar de toneladas de pares de texto e vídeo para

1:16

treine seu modelo para gerar esses vídeos

1:18

da entrada textual, mas não neste caso

1:21

uma vez que este tipo de dados é realmente

1:23

difícil de conseguir e os custos de treinamento

1:25

são super caros eles abordam isso

1:27

problema de forma diferente, outra maneira é

1:30

pegue o melhor modelo de texto para imagem e

1:32

adaptá-lo para vídeos e é isso que eu encontrei

1:35

fizeram em um trabalho de pesquisa que eles apenas

1:38

liberou no caso deles o texto para imagem

1:40

model é um outro model por meta chamado

1:43

revista que eu cobri em um anterior

1:45

vídeo se você gostaria de aprender mais sobre

1:47

mas como você adapta tal modelo para

1:50

levar tempo em consideração você adiciona um

1:53

pipeline temporal espacial para o seu modelo

1:55

para poder processar vídeos, isso significa

1:58

que o modelo não apenas gerará um

2:00

imagem, mas neste caso 16 deles em baixa

2:03

resolução para criar um breve e coerente

2:06

vídeo de maneira semelhante a um texto para

2:08

modelo de imagem, mas adicionando um unidimensional

2:11

convolução junto com o regular

2:13

bidimensional a adição simples

2:15

lhes permite manter o pré-treinado

2:17

convoluções bidimensionais o mesmo

2:19

e adicionar uma dimensão temporal que eles

2:22

vai treinar do zero reutilizando a maior parte

2:25

o código e os parâmetros dos modelos do

2:27

modelo de imagem que eles começaram nós também

2:30

quer guiar Nossas Gerações com texto

2:32

entrada que será muito semelhante a

2:34

modelos de imagem usando incorporações de clipe a

2:37

processo que vou detalhadamente no meu estábulo

2:39

vídeo de difusão se você não estiver familiarizado

2:41

com o problema deles, mas eles também serão

2:43

adicionando a dimensão temporal quando

2:45

combinando os recursos de texto com os

2:47

recursos de imagem fazendo a mesma coisa

2:49

mantendo o módulo de atenção que descrevi

2:52

no meu vídeo faça uma cena e adicione um

2:55

módulo de atenção unidimensional ou

2:57

considerações temporais copie e cole o

3:00

modelo de gerador de imagem e duplicação

3:02

os módulos de geração para mais um

3:04

Dimensão para ter todas as nossas 16 iniciais

3:07

quadros, mas o que você pode fazer com 16

3:10

quadros bem nada realmente interessante

3:13

precisamos fazer um vídeo em alta definição

3:16

fora desses quadros o modelo fará

3:19

que ao ter acesso a pré-visualizações e

3:21

quadros futuros e iterativamente

3:23

interpolando de ambos em termos de

3:27

Dimensões temporais e espaciais no

3:30

mesmo tempo, basicamente gerando novos

3:33

e quadros maiores entre aqueles

3:35

16 quadros iniciais com base nos quadros

3:38

antes e depois deles que irão

3:40

fascinam tornando o movimento coerente

3:43

e vídeo geral arruinado isso é feito

3:45

usando uma rede de interpolação de quadros

3:47

que também descrevi em outros vídeos

3:50

mas basicamente tirará as imagens que

3:52

possuem e preenchem lacunas gerando em

3:54

entre as informações ele fará o mesmo

3:57

coisa para um componente espacial ampliando

3:59

a imagem e preenchendo as lacunas de pixel para

4:02

torná-lo mais alta definição

4:04

assim, para resumir o ajuste fino de um texto para

4:07

modelo de imagem para geração de vídeo este

4:09

significa que eles já usam um modelo poderoso

4:12

treinou e adaptou e treinou um pouco

4:14

um pouco mais para se acostumar com os vídeos

4:16

retreinamento será feito com unlabeled

4:19

vídeos apenas para ensinar o modelo para

4:21

entender vídeos e quadro de vídeo

4:23

consistência que torna o conjunto de dados

4:25

processo de construção muito mais simples do que nós

4:27

usar mais uma vez um modelo otimizado de imagem

4:30

para melhorar a resolução espacial em nosso

4:32

último componente de interpolação de quadro para

4:35

adicione mais quadros para tornar o vídeo fluido

4:38

claro que os resultados ainda não são perfeitos

4:40

assim como modelos de texto para imagem, mas nós

4:43

sabe o quão rápido o progresso vai isso foi

4:45

apenas uma visão geral de como me conheci

4:47

abordou com sucesso o texto para vídeo

4:49

tarefa neste grande papel todos os links

4:52

estão na descrição abaixo se você

4:53

gostaria de saber mais sobre sua abordagem

4:55

na implementação do pytorch também é

4:57

já está sendo desenvolvido pela comunidade

4:59

também, então fique atento para isso se você

5:02

gostaria de implementá-lo você mesmo obrigado

5:04

por assistir o vídeo inteiro e eu vou

5:06

até a próxima com outro incrível

5:08

papel