Make-A-Scene de Meta AI génère des illustrations avec du texte et des croquis by@whatsai
2,098 lectures

Make-A-Scene de Meta AI génère des illustrations avec du texte et des croquis

2022/07/20
6 min
par @whatsai 2,098 lectures
tldt arrow
FR
Read on Terminal Reader

Trop long; Pour lire

L'objectif de ce nouveau modèle n'est pas de permettre aux utilisateurs de générer des images aléatoires à la suite d'une invite de texte comme le fait dalle. Au lieu de cela, Meta voulait faire avancer l'expression créative en fusionnant cette tendance text to.image avec les précédents modèles sketch-to-image, menant à "Make-A-Scene": un mélange fantastique entre le texte et la génération d'images conditionnées par croquis. En savoir plus dans la vidéo...  'Make-a-Scene n'est pas "juste un autre Dalle" - mais limite le contrôle de l'utilisateur sur les générations.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Make-A-Scene de Meta AI génère des illustrations avec du texte et des croquis
Louis Bouchard HackerNoon profile picture

@whatsai

Louis Bouchard

I explain Artificial Intelligence terms and news to non-experts.

Sur @whatsai
LEARN MORE ABOUT @WHATSAI'S EXPERTISE AND PLACE ON THE INTERNET.
react to story with heart

Make-A-Scene n'est pas "juste une autre Dalle". L'objectif de ce nouveau modèle n'est pas de permettre aux utilisateurs de générer des images aléatoires à la suite d'une invite de texte comme le fait dalle - ce qui est vraiment cool - mais de restreindre le contrôle de l'utilisateur sur les générations.

Au lieu de cela, Meta voulait faire avancer l'expression créative, fusionnant cette tendance du texte à l'image avec les modèles précédents de croquis à l'image, menant à "Make-A-Scene": un mélange fantastique entre le texte et la génération d'images conditionnées par croquis. En savoir plus dans la vidéo...

Références

►Lire l'article complet : https://www.louisbouchard.ai/make-a-scene/
►Article de blog de Meta : https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation
►Article : Gafni, O., Polyak, A., Ashual, O., Sheynin, S., Parikh, D. et
Taigman, Y., 2022. Make-a-scene : génération de texte en image basée sur la scène
avec des antécédents humains.
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:00

[Musique]

0:06

c'est faire une scène ce n'est pas juste

0:08

une autre épicerie fine le but de ce nouveau modèle

0:11

n'est pas de permettre aux utilisateurs de générer aléatoirement

0:13

images suivant l'invite de texte comme dali

0:15

fait ce qui est vraiment cool mais restreint

0:17

le contrôle de l'utilisateur sur les générations

0:20

à la place, meta voulait pousser la création

0:22

expression avant de fusionner ce texte avec

0:25

tendance de l'image avec l'esquisse précédente à

0:27

modèles d'image conduisant à faire d'une scène un

0:30

mélange fantastique entre texte et croquis

0:32

génération d'image conditionnée cela simplement

0:35

signifie qu'en utilisant cette nouvelle approche, vous

0:37

peut rapidement dessiner un chat et écrire

0:40

quel genre d'image vous voudriez et

0:42

le processus de génération d'image suivra

0:43

à la fois le croquis et les conseils de votre

0:45

texte, cela nous rapproche encore plus de l'être

0:48

capable de générer le parfait

0:49

illustration que nous voulons en quelques secondes

0:52

vous pouvez voir ce générateur multimodal

0:54

méthode ai comme modèle quotidien avec un peu

0:57

plus de contrôle sur les générations depuis

0:59

il peut également prendre un croquis rapide comme

1:01

entrée c'est pourquoi nous l'appelons multimodal

1:04

car il peut prendre plusieurs modalités comme

1:07

des entrées comme du texte et une image un croquis

1:10

dans ce cas par rapport à delhi qui

1:12

ne prend que du texte pour générer une image

1:14

les modèles multimodaux sont quelque chose de super

1:17

prometteur surtout si l'on égale

1:19

qualité des résultats que nous voyons en ligne

1:21

puisque nous avons plus de contrôle sur

1:23

des résultats se rapprochant d'un très

1:25

objectif final intéressant de générer le

1:27

image parfaite que nous avons en tête sans

1h30

toutes les compétences en conception bien sûr c'est

1:32

encore à l'état de recherche et est un

1:34

concept de recherche exploratoire en ai

1:37

ne veut pas dire que ce que nous voyons n'est pas

1:38

réalisable, cela signifie simplement qu'il faudra un

1:41

un peu plus de temps pour se rendre au public

1:43

les progrès sont extrêmement rapides sur le terrain

1:45

et je ne serais pas surpris de le voir

1:47

vivre très prochainement ou un modèle similaire

1:49

d'autres personnes pour jouer avec je crois

1:52

ces modèles à base de croquis et de texte sont

1:54

encore plus intéressant surtout pour le

1:56

l'industrie, c'est pourquoi je voulais couvrir

1:58

sur ma chaîne même si les résultats

2:00

sont un peu en retard sur ceux du quotidien 2 on voit

2:03

en ligne et ce n'est pas seulement intéressant pour

2:05

l'industrie mais aussi pour les artistes certains

2:08

utiliser la fonction d'esquisse pour générer même

2:10

des résultats plus inattendus que ce que delhi

2:13

on peut lui demander de générer

2:14

quelque chose et dessiner une forme qui ne correspond pas

2:17

représenter la chose spécifique comme

2:18

dessiner une méduse en forme de fleur

2:21

ce qui n'est peut-être pas impossible à avoir avec

2:23

dali mais beaucoup plus compliqué sans

2:25

des conseils d'esquisse car le modèle ne fera que

2:27

reproduire ce qu'il apprend dont

2:29

provient d'images du monde réel et

2:32

illustrations donc la question principale est

2:34

comment peuvent-ils guider les générations avec

2:36

à la fois la saisie de texte comme delhi et un croquis

2:39

simultanément et faire suivre le modèle

2:41

les deux lignes directrices et bien c'est très très

2:44

similaire à la façon dont delhi fonctionne donc je ne le ferai pas

2:47

entrer trop dans les détails d'un

2:49

modèle génératif comme je l'ai couvert au moins

2:51

cinq approches différentes dans le passé

2:53

deux mois que vous devriez absolument

2:55

regardez si vous ne l'avez pas encore vu ces modèles

2:57

comme dali 2 ou imogen sont assez

2:59

fantastique

3:00

généralement, ces modèles prendront

3:02

des millions d'exemples de formation pour apprendre

3:04

comment générer des images à partir de texte avec

3:07

données sous forme d'images et leur

3:09

légendes extraites d'internet ici

3:12

pendant la formation au lieu de compter uniquement

3:14

sur la légende générant le premier

3:17

version de l'image et en la comparant à

3:19

l'image réelle et en la répétant

3:21

traiter plusieurs fois avec tous nos

3:23

images nous allons également lui donner un croquis

3:26

ce qui est cool, c'est que les croquis sont

3:28

assez facile à produire pour la formation

3h30

prenez simplement un réseau pré-formé vous

3:32

peut télécharger en ligne et exécuter une instance

3:35

segmentation pour ceux qui veulent

3:37

détails qu'ils utilisent un vgg pré-formé gratuit

3:40

modèle sur imagenet donc assez petit

3:42

réseau par rapport à ceux d'aujourd'hui super

3:44

des résultats précis et rapides comme

3:47

c'est ce qu'on appelle une carte de segmentation

3:49

traitez simplement toutes leurs images une fois et

3:52

obtenir ces cartes pour former le modèle

3:55

puis utilisez cette carte ainsi que la légende

3:58

orienter le modèle pour générer

4:00

image initiale au moment de l'inférence ou lorsque

4:02

l'un de nous l'utilisera, notre croquis

4:05

remplacer ces cartes comme je l'ai dit, ils ont utilisé un

4:08

modèle appelé vgg pour créer de faux croquis

4:11

pour la formation ils utilisent un transformateur

4:13

architecture pour la génération d'images

4:15

processus qui est différent de dolly à

4:17

et je vous invite à regarder la vidéo je

4:19

fait l'introduction de transformateurs pour la vision

4:21

applications si vous souhaitez plus de détails

4:23

sur la façon dont il peut traiter et générer

4:25

images ce transformateur guidé par croquis est

4:28

la principale différence avec le magazine le long

4h30

sans utiliser de classement de texte d'image comme

4:33

clip pour mesurer les paires de texte et d'image

4:36

que vous pouvez également découvrir dans mon

4:37

vidéo quotidienne

4:39

à la place tout le texte encodé et

4:41

des cartes de segmentation sont envoyées au

4:43

modèle de transformateur le modèle puis

4:45

génère les jetons d'image pertinents

4:48

codé et décodé par le correspondant

4:50

réseaux principalement pour produire l'image

4:53

l'encodeur est utilisé pendant la formation pour

4:55

calculer la différence entre le

4:57

image produite et initiale mais seulement

4:59

décodeur est nécessaire pour prendre cela

5:01

sortie du transformateur et la transformer en

5:04

une image

5:05

et voila c'est comme ça que le nouveau modèle de meta

5:08

est capable de prendre un croquis et des entrées de texte

5:11

et générer une image haute définition

5:13

de celui-ci permettant plus de contrôle sur la

5:16

des résultats de grande qualité

5:18

et comme on dit ce n'est que le début

5:20

de ce nouveau type de modèle d'IA

5:22

les approches continueront d'améliorer les deux

5:24

en termes de qualité et de disponibilité pour

5:27

le public qui est super excitant beaucoup

5h30

les artistes utilisent déjà le modèle pour

5:32

leur propre travail tel que décrit dans les méta

5:34

article de blog et je suis ravi de savoir quand nous

5:37

pourront l'utiliser aussi leur

5:39

l'approche ne nécessite aucun codage

5:41

connaissance seulement une bonne main de croquis et

5:43

une ingénierie rapide qui signifie

5:45

essai et erreur avec les entrées de texte

5:48

peaufiner les formulations et les mots utilisés

5:50

produire des résultats différents et meilleurs

5:53

bien sûr, ce n'était qu'un aperçu de

5:55

la nouvelle approche de faire une scène et je

5:57

vous invite à lire l'article complet lié

5:59

ci-dessous pour un aperçu complet de la façon dont il

6:02

fonctionne j'espère que vous avez apprécié cette vidéo

6:04

et je vous verrai la semaine prochaine avec

6:06

un autre papier incroyable

6:09

[Musique]



HISTOIRES CONNEXES

L O A D I N G
. . . comments & more!
Hackernoon hq - po box 2206, edwards, colorado 81632, usa