Make-A-Scene n'est pas "juste une autre Dalle". L'objectif de ce nouveau modèle n'est pas de permettre aux utilisateurs de générer des images aléatoires à la suite d'une invite de texte comme le fait dalle - ce qui est vraiment cool - mais de restreindre le contrôle de l'utilisateur sur les générations.
Au lieu de cela, Meta voulait faire avancer l'expression créative, fusionnant cette tendance du texte à l'image avec les modèles précédents de croquis à l'image, menant à "Make-A-Scene": un mélange fantastique entre le texte et la génération d'images conditionnées par croquis. En savoir plus dans la vidéo...
►Lire l'article complet : https://www.louisbouchard.ai/make-a-scene/
►Article de blog de Meta : https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►Article : Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. et
Taigman, Y., 2022. Make-a-scene : génération de texte en image basée sur la scène
avec des antécédents humains.
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:00
[Musique]
0:06
c'est faire une scène ce n'est pas juste
0:08
une autre épicerie fine le but de ce nouveau modèle
0:11
n'est pas de permettre aux utilisateurs de générer aléatoirement
0:13
images suivant l'invite de texte comme dali
0:15
fait ce qui est vraiment cool mais restreint
0:17
le contrôle de l'utilisateur sur les générations
0:20
à la place, meta voulait pousser la création
0:22
expression avant de fusionner ce texte avec
0:25
tendance de l'image avec l'esquisse précédente à
0:27
modèles d'image conduisant à faire d'une scène un
0:30
mélange fantastique entre texte et croquis
0:32
génération d'image conditionnée cela simplement
0:35
signifie qu'en utilisant cette nouvelle approche, vous
0:37
peut rapidement dessiner un chat et écrire
0:40
quel genre d'image vous voudriez et
0:42
le processus de génération d'image suivra
0:43
à la fois le croquis et les conseils de votre
0:45
texte, cela nous rapproche encore plus de l'être
0:48
capable de générer le parfait
0:49
illustration que nous voulons en quelques secondes
0:52
vous pouvez voir ce générateur multimodal
0:54
méthode ai comme modèle quotidien avec un peu
0:57
plus de contrôle sur les générations depuis
0:59
il peut également prendre un croquis rapide comme
1:01
entrée c'est pourquoi nous l'appelons multimodal
1:04
car il peut prendre plusieurs modalités comme
1:07
des entrées comme du texte et une image un croquis
1:10
dans ce cas par rapport à delhi qui
1:12
ne prend que du texte pour générer une image
1:14
les modèles multimodaux sont quelque chose de super
1:17
prometteur surtout si l'on égale
1:19
qualité des résultats que nous voyons en ligne
1:21
puisque nous avons plus de contrôle sur
1:23
des résultats se rapprochant d'un très
1:25
objectif final intéressant de générer le
1:27
image parfaite que nous avons en tête sans
1h30
toutes les compétences en conception bien sûr c'est
1:32
encore à l'état de recherche et est un
1:34
concept de recherche exploratoire en ai
1:37
ne veut pas dire que ce que nous voyons n'est pas
1:38
réalisable, cela signifie simplement qu'il faudra un
1:41
un peu plus de temps pour se rendre au public
1:43
les progrès sont extrêmement rapides sur le terrain
1:45
et je ne serais pas surpris de le voir
1:47
vivre très prochainement ou un modèle similaire
1:49
d'autres personnes pour jouer avec je crois
1:52
ces modèles à base de croquis et de texte sont
1:54
encore plus intéressant surtout pour le
1:56
l'industrie, c'est pourquoi je voulais couvrir
1:58
sur ma chaîne même si les résultats
2:00
sont un peu en retard sur ceux du quotidien 2 on voit
2:03
en ligne et ce n'est pas seulement intéressant pour
2:05
l'industrie mais aussi pour les artistes certains
2:08
utiliser la fonction d'esquisse pour générer même
2:10
des résultats plus inattendus que ce que delhi
2:13
on peut lui demander de générer
2:14
quelque chose et dessiner une forme qui ne correspond pas
2:17
représenter la chose spécifique comme
2:18
dessiner une méduse en forme de fleur
2:21
ce qui n'est peut-être pas impossible à avoir avec
2:23
dali mais beaucoup plus compliqué sans
2:25
des conseils d'esquisse car le modèle ne fera que
2:27
reproduire ce qu'il apprend dont
2:29
provient d'images du monde réel et
2:32
illustrations donc la question principale est
2:34
comment peuvent-ils guider les générations avec
2:36
à la fois la saisie de texte comme delhi et un croquis
2:39
simultanément et faire suivre le modèle
2:41
les deux lignes directrices et bien c'est très très
2:44
similaire à la façon dont delhi fonctionne donc je ne le ferai pas
2:47
entrer trop dans les détails d'un
2:49
modèle génératif comme je l'ai couvert au moins
2:51
cinq approches différentes dans le passé
2:53
deux mois que vous devriez absolument
2:55
regardez si vous ne l'avez pas encore vu ces modèles
2:57
comme dali 2 ou imogen sont assez
2:59
fantastique
3:00
généralement, ces modèles prendront
3:02
des millions d'exemples de formation pour apprendre
3:04
comment générer des images à partir de texte avec
3:07
données sous forme d'images et leur
3:09
légendes extraites d'internet ici
3:12
pendant la formation au lieu de compter uniquement
3:14
sur la légende générant le premier
3:17
version de l'image et en la comparant à
3:19
l'image réelle et en la répétant
3:21
traiter plusieurs fois avec tous nos
3:23
images nous allons également lui donner un croquis
3:26
ce qui est cool, c'est que les croquis sont
3:28
assez facile à produire pour la formation
3h30
prenez simplement un réseau pré-formé vous
3:32
peut télécharger en ligne et exécuter une instance
3:35
segmentation pour ceux qui veulent
3:37
détails qu'ils utilisent un vgg pré-formé gratuit
3:40
modèle sur imagenet donc assez petit
3:42
réseau par rapport à ceux d'aujourd'hui super
3:44
des résultats précis et rapides comme
3:47
c'est ce qu'on appelle une carte de segmentation
3:49
traitez simplement toutes leurs images une fois et
3:52
obtenir ces cartes pour former le modèle
3:55
puis utilisez cette carte ainsi que la légende
3:58
orienter le modèle pour générer
4:00
image initiale au moment de l'inférence ou lorsque
4:02
l'un de nous l'utilisera, notre croquis
4:05
remplacer ces cartes comme je l'ai dit, ils ont utilisé un
4:08
modèle appelé vgg pour créer de faux croquis
4:11
pour la formation ils utilisent un transformateur
4:13
architecture pour la génération d'images
4:15
processus qui est différent de dolly à
4:17
et je vous invite à regarder la vidéo je
4:19
fait l'introduction de transformateurs pour la vision
4:21
applications si vous souhaitez plus de détails
4:23
sur la façon dont il peut traiter et générer
4:25
images ce transformateur guidé par croquis est
4:28
la principale différence avec le magazine le long
4h30
sans utiliser de classement de texte d'image comme
4:33
clip pour mesurer les paires de texte et d'image
4:36
que vous pouvez également découvrir dans mon
4:37
vidéo quotidienne
4:39
à la place tout le texte encodé et
4:41
des cartes de segmentation sont envoyées au
4:43
modèle de transformateur le modèle puis
4:45
génère les jetons d'image pertinents
4:48
codé et décodé par le correspondant
4:50
réseaux principalement pour produire l'image
4:53
l'encodeur est utilisé pendant la formation pour
4:55
calculer la différence entre le
4:57
image produite et initiale mais seulement
4:59
décodeur est nécessaire pour prendre cela
5:01
sortie du transformateur et la transformer en
5:04
une image
5:05
et voila c'est comme ça que le nouveau modèle de meta
5:08
est capable de prendre un croquis et des entrées de texte
5:11
et générer une image haute définition
5:13
de celui-ci permettant plus de contrôle sur la
5:16
des résultats de grande qualité
5:18
et comme on dit ce n'est que le début
5:20
de ce nouveau type de modèle d'IA
5:22
les approches continueront d'améliorer les deux
5:24
en termes de qualité et de disponibilité pour
5:27
le public qui est super excitant beaucoup
5h30
les artistes utilisent déjà le modèle pour
5:32
leur propre travail tel que décrit dans les méta
5:34
article de blog et je suis ravi de savoir quand nous
5:37
pourront l'utiliser aussi leur
5:39
l'approche ne nécessite aucun codage
5:41
connaissance seulement une bonne main de croquis et
5:43
une ingénierie rapide qui signifie
5:45
essai et erreur avec les entrées de texte
5:48
peaufiner les formulations et les mots utilisés
5:50
produire des résultats différents et meilleurs
5:53
bien sûr, ce n'était qu'un aperçu de
5:55
la nouvelle approche de faire une scène et je
5:57
vous invite à lire l'article complet lié
5:59
ci-dessous pour un aperçu complet de la façon dont il
6:02
fonctionne j'espère que vous avez apprécié cette vidéo
6:04
et je vous verrai la semaine prochaine avec
6:06
un autre papier incroyable
6:09
[Musique]