Le nouveau modèle make-a-video de Meta AI est sorti et en une seule phrase : il génère des vidéos à partir de texte . Il est non seulement capable de générer des vidéos, mais c'est aussi la nouvelle méthode de pointe, produisant des vidéos de meilleure qualité et plus cohérentes que jamais !
Vous pouvez voir ce modèle comme un modèle de diffusion stable pour les vidéos. Sûrement la prochaine étape après avoir pu générer des images. Ce sont toutes des informations que vous avez déjà dû voir sur un site d'actualités ou simplement en lisant le titre de l'article, mais ce que vous ne savez pas encore, c'est de quoi il s'agit exactement et comment cela fonctionne.
Voici comment...
►Lire l'article complet : https://www.louisbouchard.ai/make-a-video/
► Article de blog de Meta : https://ai.facebook.com/blog/generative-ai-text-to-video/
►Singer et al. (Meta AI), 2022, "MAKE-A-VIDEO : GÉNÉRATION DE TEXTE À VIDÉO SANS DONNÉES TEXTE-VIDÉO", https://makeavideo.studio/Make-A-Video.pdf
►Make-a-video (page officielle) : https://makeavideo.studio/?fbclid=IwAR0tuL9Uc6kjZaMoJHCngAMUNp9bZbyhLmdOUveJ9leyyfL9awRy4seQGW4
► Implémentation de Pytorch : https://github.com/lucidrains/make-a-video-pytorch
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
le nouveau modèle de methias fait une vidéo est sorti
0:03
et en une seule phrase il génère
0:05
vidéos à partir de texte, il n'est pas en mesure de
0:07
générer des vidéos mais c'est aussi la nouveauté
0:09
méthode de pointe produisant plus
0:11
des vidéos de qualité et plus cohérentes que
0:14
jamais vous pouvez voir ce modèle comme une écurie
0:16
modèle de diffusion pour les vidéos sûrement le
0:19
prochaine étape après avoir pu générer
0:21
images c'est ainsi que vous devez
0:23
déjà vu sur un site d'actualités ou
0:26
rien qu'en lisant le titre de la vidéo
0:28
mais ce que tu ne sais pas encore c'est ce qui est
0:30
c'est exactement et comment ça marche faire une vidéo
0:33
est la publication la plus récente de met
0:35
III et il vous permet de générer un
0:37
courte vidéo à partir d'entrées textuelles juste
0:40
comme ça pour ajouter de la complexité
0:42
au test de génération d'image non seulement
0:45
avoir à générer plusieurs trames de
0:47
le même sujet et la même scène mais c'est aussi
0:49
doit être cohérent dans le temps vous ne pouvez pas
0:51
générer simplement 60 images en utilisant dally
0:53
et générer une vidéo, il aura juste l'air
0:56
mauvais et rien de réaliste vous avez besoin d'un
0:58
modèle qui comprend le monde d'une
1:00
meilleure façon et tire parti de ce niveau de
1:02
compréhension pour générer une cohérence
1:04
série d'images qui se fondent bien
1:06
ensemble, vous voulez essentiellement simuler
1:08
un monde, puis simuler des enregistrements de
1:11
mais comment pouvez-vous faire cela généralement vous
1:14
aura besoin de tonnes de paires de vidéo texte pour
1:16
entraînez votre modèle pour générer de telles vidéos
1:18
à partir d'une entrée textuelle, mais pas dans ce cas
1:21
étant donné que ce type de données est vraiment
1:23
difficile à obtenir et les coûts de formation
1:25
sont super chers ils s'en approchent
1:27
problème différemment une autre façon est de
1h30
prendre le meilleur modèle de texte en image et
1:32
l'adapter aux vidéos et c'est ce que j'ai rencontré
1:35
fait dans un document de recherche qu'ils viennent de
1:38
publié dans leur cas le texte à l'image
1:40
model est un autre modèle par méta appelé
1:43
magazine que j'ai couvert dans un précédent
1:45
vidéo si vous souhaitez en savoir plus
1:47
mais comment adapter un tel modèle à
1:50
prenez le temps en considération vous ajoutez un
1:53
pipeline spatio-temporel pour votre modèle
1:55
pouvoir traiter des vidéos cela signifie
1:58
que le modèle générera non seulement une
2:00
image mais dans ce cas 16 d'entre eux en bas
2:03
résolution pour créer un court texte cohérent
2:06
vidéo de la même manière qu'un texte pour
2:08
modèle d'image mais en ajoutant un modèle unidimensionnel
2:11
convolution avec le régulier
2:13
un bidimensionnel la simple addition
2:15
leur permet de garder les pré-formés
2:17
convolutions bidimensionnelles identiques
2:19
et ajouter une dimension temporelle qu'ils
2:22
s'entraînera à partir de zéro en réutilisant la plupart des
2:25
les paramètres de code et de modèles de la
2:27
modèle d'image à partir duquel ils sont partis nous aussi
2h30
vouloir guider Nos Générations avec du texte
2:32
entrée qui sera très similaire à
2:34
modèles d'image à l'aide d'incorporations de clip a
2:37
processus je vais en détail dans mon écurie
2:39
vidéo de diffusion si vous n'êtes pas familier
2:41
avec leur problème mais ils seront aussi
2:43
ajouter la dimension temporelle lorsque
2:45
mélangeant les caractéristiques du texte avec les
2:47
caractéristiques de l'image faisant la même chose
2:49
garder le module d'attention que j'ai décrit
2:52
dans ma vidéo de création de scène et d'ajout d'un
2:55
module d'attention unidimensionnel ou
2:57
considérations temporelles copier coller le
3:00
modèle de générateur d'images et duplication
3:02
les modules de génération pour un de plus
3:04
Dimension pour avoir tous nos 16 initiales
3:07
cadres mais que pouvez-vous faire avec 16
3:10
cadres bien rien de vraiment interessant
3:13
nous devons faire une vidéo haute définition
3:16
hors de ces cadres, le modèle fera l'affaire
3:19
qu'en ayant accès aux aperçus et
3:21
cadres futurs et itérativement
3:23
interpolant à partir d'eux à la fois en termes de
3:27
Dimensions temporelles et spatiales au
3h30
en même temps, générant essentiellement de nouveaux
3:33
et des cadres plus grands entre ceux
3:35
16 images initiales basées sur les images
3:38
avant et après eux qui seront
3:40
fasciner rendre le mouvement cohérent
3:43
et la vidéo globale a été ruinée, c'est fait
3:45
à l'aide d'un réseau d'interpolation de trame
3:47
que j'ai aussi décrit dans d'autres vidéos
3:50
mais prendra essentiellement les images que nous
3:52
avoir et combler les lacunes générant dans
3:54
entre les informations, il fera la même chose
3:57
chose pour un composant spatial agrandissant
3:59
l'image et combler les lacunes de pixel pour
4:02
rendre plus haute définition
4:04
donc pour résumer le peaufiner un texte à
4:07
modèle d'image pour la génération vidéo this
4:09
signifie qu'ils prennent déjà un modèle puissant
4:12
formé et adaptez-le et entraînez-le un peu
4:14
un peu plus pour s'habituer aux vidéos
4:16
le recyclage se fera avec des non labellisés
4:19
vidéos juste pour apprendre au modèle à
4:21
comprendre les vidéos et l'image vidéo
4:23
cohérence qui rend l'ensemble de données
4:25
processus de construction beaucoup plus simple que nous
4:27
utiliser à nouveau un modèle optimisé pour l'image
4h30
pour améliorer la résolution spatiale dans notre
4:32
dernier composant d'interpolation d'image à
4:35
ajouter plus d'images pour rendre la vidéo fluide
4:38
bien sûr, les résultats ne sont pas encore parfaits
4:40
tout comme les modèles de texte en image, mais nous
4:43
savoir à quelle vitesse les progrès vont c'était
4:45
juste un aperçu de la façon dont j'ai rencontré
4:47
réussi à aborder le texte en vidéo
4:49
tâche dans ce grand papier tous les liens
4:52
sont dans la description ci-dessous si vous souhaitez
4:53
aimeraient en savoir plus sur leur approche
4:55
à la mise en œuvre de pytorch est également
4:57
déjà développé par la communauté
4:59
aussi bien alors restez à l'écoute pour ça si vous voulez
5:02
j'aimerais le mettre en œuvre vous-même merci
5:04
pour avoir regardé toute la vidéo et je vais
5:06
à la prochaine fois avec un autre incroyable
5:08
papier