Saiu o novo modelo make-a-video da Meta AI e em uma única frase: . Não só é capaz de gerar vídeos, mas também é o novo método de última geração, produzindo vídeos de maior qualidade e mais coerentes do que nunca! gera vídeos a partir de texto Você pode ver este modelo como um modelo de difusão estável para vídeos. Certamente o próximo passo depois de poder gerar imagens. Essas são todas as informações que você já deve ter visto em algum site de notícias ou apenas lendo o título da matéria, mas o que você ainda não sabe é o que é exatamente e como funciona. Veja como... Referências ►Leia o artigo completo: ► Postagem no blog da Meta: ►Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO: GERAÇÃO DE TEXTO PARA VÍDEO SEM DADOS DE TEXTO-VÍDEO", ►Make-a-video (página oficial): ► Implementação do Pytorch: ►Meu boletim informativo (um novo aplicativo de IA explicado semanalmente para seus e-mails!): https://www.louisbouchard.ai/make-a-video/ https://ai.facebook.com/blog/generative-ai-text-to-video/ https://makeavideo.studio/Make-A-Video.pdf https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4 https://github.com/lucidrains/make-a-video-pytorch https://www.louisbouchard.ai/newsletter/ Transcrição de vídeo 0:00 a nova modelo de methias faz um vídeo saiu 0:03 e em uma única frase gera 0:05 vídeos de texto não é possível 0:07 gerar vídeos, mas também é o novo 0:09 método de ponta que produz maior 0:11 vídeos de qualidade e mais coerentes do que 0:14 sempre você pode ver este modelo como um estável 0:16 modelo de difusão para vídeos com certeza o 0:19 próximo passo depois de ser capaz de gerar 0:21 imagens é assim que informações você deve 0:23 já viu em um site de notícias ou 0:26 só de ler o título do vídeo 0:28 mas o que você ainda não sabe é o que é 0:30 exatamente e como funciona faz um video 0:33 é a publicação mais recente do met 0:35 III e permite gerar um 0:37 vídeo curto de entradas de texto apenas 0:40 assim você está adicionando complexidade 0:42 ao teste de geração de imagem não só 0:45 ter que gerar vários quadros de 0:47 o mesmo assunto e cena, mas também 0:49 tem que ser coerente no tempo você não pode 0:51 simplesmente gere 60 imagens usando dally 0:53 e gerar um vídeo, ele apenas parecerá 0:56 ruim e nada realista você precisa de um 0:58 modelo que entende o mundo de uma 1:00 maneira melhor e aproveita esse nível de 1:02 compreensão para gerar uma 1:04 série de imagens que combinam bem 1:06 juntos, você basicamente deseja simular 1:08 um mundo e, em seguida, simular gravações de 1:11 mas como você pode fazer isso normalmente você 1:14 vai precisar de toneladas de pares de texto e vídeo para 1:16 treine seu modelo para gerar esses vídeos 1:18 da entrada textual, mas não neste caso 1:21 uma vez que este tipo de dados é realmente 1:23 difícil de conseguir e os custos de treinamento 1:25 são super caros eles abordam isso 1:27 problema de forma diferente, outra maneira é 1:30 pegue o melhor modelo de texto para imagem e 1:32 adaptá-lo para vídeos e é isso que eu encontrei 1:35 fizeram em um trabalho de pesquisa que eles apenas 1:38 liberou no caso deles o texto para imagem 1:40 model é um outro model por meta chamado 1:43 revista que eu cobri em um anterior 1:45 vídeo se você gostaria de aprender mais sobre 1:47 mas como você adapta tal modelo para 1:50 levar tempo em consideração você adiciona um 1:53 pipeline temporal espacial para o seu modelo 1:55 para poder processar vídeos, isso significa 1:58 que o modelo não apenas gerará um 2:00 imagem, mas neste caso 16 deles em baixa 2:03 resolução para criar um breve e coerente 2:06 vídeo de maneira semelhante a um texto para 2:08 modelo de imagem, mas adicionando um unidimensional 2:11 convolução junto com o regular 2:13 bidimensional a adição simples 2:15 lhes permite manter o pré-treinado 2:17 convoluções bidimensionais o mesmo 2:19 e adicionar uma dimensão temporal que eles 2:22 vai treinar do zero reutilizando a maior parte 2:25 o código e os parâmetros dos modelos do 2:27 modelo de imagem que eles começaram nós também 2:30 quer guiar Nossas Gerações com texto 2:32 entrada que será muito semelhante a 2:34 modelos de imagem usando incorporações de clipe a 2:37 processo que vou detalhadamente no meu estábulo 2:39 vídeo de difusão se você não estiver familiarizado 2:41 com o problema deles, mas eles também serão 2:43 adicionando a dimensão temporal quando 2:45 combinando os recursos de texto com os 2:47 recursos de imagem fazendo a mesma coisa 2:49 mantendo o módulo de atenção que descrevi 2:52 no meu vídeo faça uma cena e adicione um 2:55 módulo de atenção unidimensional ou 2:57 considerações temporais copie e cole o 3:00 modelo de gerador de imagem e duplicação 3:02 os módulos de geração para mais um 3:04 Dimensão para ter todas as nossas 16 iniciais 3:07 quadros, mas o que você pode fazer com 16 3:10 quadros bem nada realmente interessante 3:13 precisamos fazer um vídeo em alta definição 3:16 fora desses quadros o modelo fará 3:19 que ao ter acesso a pré-visualizações e 3:21 quadros futuros e iterativamente 3:23 interpolando de ambos em termos de 3:27 Dimensões temporais e espaciais no 3:30 mesmo tempo, basicamente gerando novos 3:33 e quadros maiores entre aqueles 3:35 16 quadros iniciais com base nos quadros 3:38 antes e depois deles que irão 3:40 fascinam tornando o movimento coerente 3:43 e vídeo geral arruinado isso é feito 3:45 usando uma rede de interpolação de quadros 3:47 que também descrevi em outros vídeos 3:50 mas basicamente tirará as imagens que 3:52 possuem e preenchem lacunas gerando em 3:54 entre as informações ele fará o mesmo 3:57 coisa para um componente espacial ampliando 3:59 a imagem e preenchendo as lacunas de pixel para 4:02 torná-lo mais alta definição 4:04 assim, para resumir o ajuste fino de um texto para 4:07 modelo de imagem para geração de vídeo este 4:09 significa que eles já usam um modelo poderoso 4:12 treinou e adaptou e treinou um pouco 4:14 um pouco mais para se acostumar com os vídeos 4:16 retreinamento será feito com unlabeled 4:19 vídeos apenas para ensinar o modelo para 4:21 entender vídeos e quadro de vídeo 4:23 consistência que torna o conjunto de dados 4:25 processo de construção muito mais simples do que nós 4:27 usar mais uma vez um modelo otimizado de imagem 4:30 para melhorar a resolução espacial em nosso 4:32 último componente de interpolação de quadro para 4:35 adicione mais quadros para tornar o vídeo fluido 4:38 claro que os resultados ainda não são perfeitos 4:40 assim como modelos de texto para imagem, mas nós 4:43 sabe o quão rápido o progresso vai isso foi 4:45 apenas uma visão geral de como me conheci 4:47 abordou com sucesso o texto para vídeo 4:49 tarefa neste grande papel todos os links 4:52 estão na descrição abaixo se você 4:53 gostaria de saber mais sobre sua abordagem 4:55 na implementação do pytorch também é 4:57 já está sendo desenvolvido pela comunidade 4:59 também, então fique atento para isso se você 5:02 gostaria de implementá-lo você mesmo obrigado 5:04 por assistir o vídeo inteiro e eu vou 5:06 até a próxima com outro incrível 5:08 papel