Make-A-Scene n'est pas "juste une autre Dalle". L'objectif de ce nouveau modèle n'est pas de permettre aux utilisateurs de générer des images aléatoires à la suite d'une invite de texte comme le fait dalle - ce qui est vraiment cool - mais de restreindre le contrôle de l'utilisateur sur les générations. Au lieu de cela, Meta voulait faire avancer l'expression créative, fusionnant cette tendance du texte à l'image avec les modèles précédents de croquis à l'image, menant à "Make-A-Scene": un mélange fantastique entre le texte et la génération d'images conditionnées par croquis. En savoir plus dans la vidéo... Références ►Lire l'article complet : ►Article de blog de Meta : ►Article : Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. et Taigman, Y., 2022. Make-a-scene : génération de texte en image basée sur la scène avec des antécédents humains. ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/make-a-scene/ https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation https://www.louisbouchard.ai/newsletter/ Transcription vidéo 0:00 [Musique] 0:06 c'est faire une scène ce n'est pas juste 0:08 une autre épicerie fine le but de ce nouveau modèle 0:11 n'est pas de permettre aux utilisateurs de générer aléatoirement 0:13 images suivant l'invite de texte comme dali 0:15 fait ce qui est vraiment cool mais restreint 0:17 le contrôle de l'utilisateur sur les générations 0:20 à la place, meta voulait pousser la création 0:22 expression avant de fusionner ce texte avec 0:25 tendance de l'image avec l'esquisse précédente à 0:27 modèles d'image conduisant à faire d'une scène un 0:30 mélange fantastique entre texte et croquis 0:32 génération d'image conditionnée cela simplement 0:35 signifie qu'en utilisant cette nouvelle approche, vous 0:37 peut rapidement dessiner un chat et écrire 0:40 quel genre d'image vous voudriez et 0:42 le processus de génération d'image suivra 0:43 à la fois le croquis et les conseils de votre 0:45 texte, cela nous rapproche encore plus de l'être 0:48 capable de générer le parfait 0:49 illustration que nous voulons en quelques secondes 0:52 vous pouvez voir ce générateur multimodal 0:54 méthode ai comme modèle quotidien avec un peu 0:57 plus de contrôle sur les générations depuis 0:59 il peut également prendre un croquis rapide comme 1:01 entrée c'est pourquoi nous l'appelons multimodal 1:04 car il peut prendre plusieurs modalités comme 1:07 des entrées comme du texte et une image un croquis 1:10 dans ce cas par rapport à delhi qui 1:12 ne prend que du texte pour générer une image 1:14 les modèles multimodaux sont quelque chose de super 1:17 prometteur surtout si l'on égale 1:19 qualité des résultats que nous voyons en ligne 1:21 puisque nous avons plus de contrôle sur 1:23 des résultats se rapprochant d'un très 1:25 objectif final intéressant de générer le 1:27 image parfaite que nous avons en tête sans 1h30 toutes les compétences en conception bien sûr c'est 1:32 encore à l'état de recherche et est un 1:34 concept de recherche exploratoire en ai 1:37 ne veut pas dire que ce que nous voyons n'est pas 1:38 réalisable, cela signifie simplement qu'il faudra un 1:41 un peu plus de temps pour se rendre au public 1:43 les progrès sont extrêmement rapides sur le terrain 1:45 et je ne serais pas surpris de le voir 1:47 vivre très prochainement ou un modèle similaire 1:49 d'autres personnes pour jouer avec je crois 1:52 ces modèles à base de croquis et de texte sont 1:54 encore plus intéressant surtout pour le 1:56 l'industrie, c'est pourquoi je voulais couvrir 1:58 sur ma chaîne même si les résultats 2:00 sont un peu en retard sur ceux du quotidien 2 on voit 2:03 en ligne et ce n'est pas seulement intéressant pour 2:05 l'industrie mais aussi pour les artistes certains 2:08 utiliser la fonction d'esquisse pour générer même 2:10 des résultats plus inattendus que ce que delhi 2:13 on peut lui demander de générer 2:14 quelque chose et dessiner une forme qui ne correspond pas 2:17 représenter la chose spécifique comme 2:18 dessiner une méduse en forme de fleur 2:21 ce qui n'est peut-être pas impossible à avoir avec 2:23 dali mais beaucoup plus compliqué sans 2:25 des conseils d'esquisse car le modèle ne fera que 2:27 reproduire ce qu'il apprend dont 2:29 provient d'images du monde réel et 2:32 illustrations donc la question principale est 2:34 comment peuvent-ils guider les générations avec 2:36 à la fois la saisie de texte comme delhi et un croquis 2:39 simultanément et faire suivre le modèle 2:41 les deux lignes directrices et bien c'est très très 2:44 similaire à la façon dont delhi fonctionne donc je ne le ferai pas 2:47 entrer trop dans les détails d'un 2:49 modèle génératif comme je l'ai couvert au moins 2:51 cinq approches différentes dans le passé 2:53 deux mois que vous devriez absolument 2:55 regardez si vous ne l'avez pas encore vu ces modèles 2:57 comme dali 2 ou imogen sont assez 2:59 fantastique 3:00 généralement, ces modèles prendront 3:02 des millions d'exemples de formation pour apprendre 3:04 comment générer des images à partir de texte avec 3:07 données sous forme d'images et leur 3:09 légendes extraites d'internet ici 3:12 pendant la formation au lieu de compter uniquement 3:14 sur la légende générant le premier 3:17 version de l'image et en la comparant à 3:19 l'image réelle et en la répétant 3:21 traiter plusieurs fois avec tous nos 3:23 images nous allons également lui donner un croquis 3:26 ce qui est cool, c'est que les croquis sont 3:28 assez facile à produire pour la formation 3h30 prenez simplement un réseau pré-formé vous 3:32 peut télécharger en ligne et exécuter une instance 3:35 segmentation pour ceux qui veulent 3:37 détails qu'ils utilisent un vgg pré-formé gratuit 3:40 modèle sur imagenet donc assez petit 3:42 réseau par rapport à ceux d'aujourd'hui super 3:44 des résultats précis et rapides comme 3:47 c'est ce qu'on appelle une carte de segmentation 3:49 traitez simplement toutes leurs images une fois et 3:52 obtenir ces cartes pour former le modèle 3:55 puis utilisez cette carte ainsi que la légende 3:58 orienter le modèle pour générer 4:00 image initiale au moment de l'inférence ou lorsque 4:02 l'un de nous l'utilisera, notre croquis 4:05 remplacer ces cartes comme je l'ai dit, ils ont utilisé un 4:08 modèle appelé vgg pour créer de faux croquis 4:11 pour la formation ils utilisent un transformateur 4:13 architecture pour la génération d'images 4:15 processus qui est différent de dolly à 4:17 et je vous invite à regarder la vidéo je 4:19 fait l'introduction de transformateurs pour la vision 4:21 applications si vous souhaitez plus de détails 4:23 sur la façon dont il peut traiter et générer 4:25 images ce transformateur guidé par croquis est 4:28 la principale différence avec le magazine le long 4h30 sans utiliser de classement de texte d'image comme 4:33 clip pour mesurer les paires de texte et d'image 4:36 que vous pouvez également découvrir dans mon 4:37 vidéo quotidienne 4:39 à la place tout le texte encodé et 4:41 des cartes de segmentation sont envoyées au 4:43 modèle de transformateur le modèle puis 4:45 génère les jetons d'image pertinents 4:48 codé et décodé par le correspondant 4:50 réseaux principalement pour produire l'image 4:53 l'encodeur est utilisé pendant la formation pour 4:55 calculer la différence entre le 4:57 image produite et initiale mais seulement 4:59 décodeur est nécessaire pour prendre cela 5:01 sortie du transformateur et la transformer en 5:04 une image 5:05 et voila c'est comme ça que le nouveau modèle de meta 5:08 est capable de prendre un croquis et des entrées de texte 5:11 et générer une image haute définition 5:13 de celui-ci permettant plus de contrôle sur la 5:16 des résultats de grande qualité 5:18 et comme on dit ce n'est que le début 5:20 de ce nouveau type de modèle d'IA 5:22 les approches continueront d'améliorer les deux 5:24 en termes de qualité et de disponibilité pour 5:27 le public qui est super excitant beaucoup 5h30 les artistes utilisent déjà le modèle pour 5:32 leur propre travail tel que décrit dans les méta 5:34 article de blog et je suis ravi de savoir quand nous 5:37 pourront l'utiliser aussi leur 5:39 l'approche ne nécessite aucun codage 5:41 connaissance seulement une bonne main de croquis et 5:43 une ingénierie rapide qui signifie 5:45 essai et erreur avec les entrées de texte 5:48 peaufiner les formulations et les mots utilisés 5:50 produire des résultats différents et meilleurs 5:53 bien sûr, ce n'était qu'un aperçu de 5:55 la nouvelle approche de faire une scène et je 5:57 vous invite à lire l'article complet lié 5:59 ci-dessous pour un aperçu complet de la façon dont il 6:02 fonctionne j'espère que vous avez apprécié cette vidéo 6:04 et je vous verrai la semaine prochaine avec 6:06 un autre papier incroyable 6:09 [Musique]