paint-brush
Une introduction à eDiffi : le nouveau modèle de synthèse d'images SOTA de NVIDIApar@whatsai
3,201 lectures
3,201 lectures

Une introduction à eDiffi : le nouveau modèle de synthèse d'images SOTA de NVIDIA

par Louis Bouchard5m2022/11/05
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

eDiffi, le modèle le plus récent de NVIDIA, génère des images plus belles et plus précises que toutes les approches précédentes comme DALLE 2 ou Stable Diffusion. eDiffi comprend mieux le texte que vous envoyez et est plus personnalisable, ajoutant une fonctionnalité que nous avons vue dans un article précédent de NVIDIA : l'outil de peinture. En savoir plus dans la vidéo...
featured image - Une introduction à eDiffi : le nouveau modèle de synthèse d'images SOTA de NVIDIA
Louis Bouchard HackerNoon profile picture

eDiffi, le modèle le plus récent de NVIDIA, génère des images plus belles et plus précises que toutes les approches précédentes comme DALLE 2 ou Stable Diffusion. eDiffi comprend mieux le texte que vous envoyez et est plus personnalisable, ajoutant une fonctionnalité que nous avons vue dans un article précédent de NVIDIA : l'outil de peinture. En savoir plus dans la vidéo...

Références

►Lire l'article complet : https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi : Modèles de diffusion texte-image avec un ensemble de débruiteurs experts, https://arxiv.org/abs/2211.01324
►Page du projet : https://deepimagination.cc/eDiffi/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:06

la nouvelle approche de pointe pour

0:08

synthèse d'image il génère mieux

0:10

des images plus belles et plus précises que

0:13

toutes les approches précédentes comme Delhi 2 ou

0:15

diffusion stable soit s'il vaut mieux

0:17

comprend le texte que vous envoyez et est

0:19

plus personnalisable en ajoutant une nouvelle fonctionnalité

0:21

nous avons vu dans un article précédent de Nvidia

0:23

l'outil de peinture comme ils le voient, vous pouvez

0:26

peindre avec des mots en bref cela signifie que vous

0:29

peut entrer quelques sujets et peindre dans

0:32

l'image ce qui devrait apparaître ici et

0:34

vous permettant de créer beaucoup plus

0:36

images personnalisées par rapport à un aléatoire

0:39

génération suite à une invite c'est

0:41

le prochain niveau vous permettant de jolie

0:43

beaucoup obtenir l'image exacte que vous avez dans

0:45

l'esprit en dessinant simplement un horrible rapide

0:47

esquisser quelque chose que même moi je peux faire comme je

0:50

mentionné que les résultats ne sont pas seulement Sota

0:52

et plus beau que la diffusion stable

0:55

mais ils sont aussi beaucoup plus contrôlables

0:57

bien sûr, c'est un cas d'utilisation différent car

0:59

il a besoin d'un peu plus de travail et d'un plus clair

1:02

ID à l'esprit pour créer un tel brouillon, mais

1:04

c'est définitivement super très excitant et

1:06

intéressant c'est aussi pourquoi je voulais

1:08

couvrez-le sur ma chaîne car ce n'est pas

1:11

simplement un meilleur modèle, mais aussi un

1:13

approche différente avec beaucoup plus

1:15

contrôle sur la sortie que l'outil n'est pas

1:17

disponible encore malheureusement mais je suis sûr

1:19

j'espère que ce sera bientôt d'ailleurs

1:22

doit absolument s'abonner au

1:23

chaîne et suivez-moi sur Twitter à quoi

1:25

dites bonjour si vous aimez ce genre de vidéo

1:27

et souhaite avoir accès facilement

1h30

des nouvelles digestes à ce sujet

1:32

terrain compliqué une autre victoire qu'ils

1:34

vous permettre d'avoir plus de contrôle dans ce

1:37

le nouveau modèle utilise la même fonctionnalité

1:39

on a vu mais autrement effectivement le modèle

1:42

génère des images Guidé par une phrase

1:44

mais il peut aussi être influencé à l'aide d'un

1:47

croquis rapide donc il faut essentiellement un

1:49

image et un texte comme entrées cela signifie

1:52

vous pouvez faire d'autres choses comme il comprend

1:54

images ici, ils en tirent parti

1:56

capacités en développant un style

1:58

approche de transfert où vous pouvez

2:00

influencer le style de l'image

2:02

processus de génération donnant une image avec

2:04

un style particulier bien avec votre

2:06

saisie de texte c'est super cool et juste

2:09

regardez les résultats pour lesquels ils parlent

2:11

eux-mêmes c'est incroyable de battre les deux

2:14

Modèles et image de transfert de style Sota

2:16

modèles de synthèse avec une seule approche

2:18

maintenant la question est de savoir comment Nvidia pourrait

2:22

développer un modèle qui crée mieux

2:23

la recherche d'images permet plus de contrôle sur

2:26

à la fois le style et la structure de l'image

2:29

ainsi qu'une meilleure compréhension et

2:31

représentant ce que vous voulez réellement dans

2:34

ton texte bien ils changent le typique

2:36

architecture de diffusion de deux manières d'abord

2:39

ils encodent le texte en utilisant deux

2:41

approches que j'ai déjà couvertes sur le

2:43

canal que nous appelons clip et T5

2:46

encodeurs cela signifie qu'ils utiliseront

2:48

modèles pré-formés pour prendre du texte et

2:50

créer divers encastrements axés sur

2:52

différentes fonctionnalités au fur et à mesure de leur formation

2:55

et se sont comportés différemment et les significations sont

2:57

juste des représentations maximisant ce que

3:00

phrase signifie en fait pour le

3:01

algorithme ou la machine pour comprendre

3:04

en ce qui concerne l'image d'entrée qu'ils viennent

3:06

utilisez également les intégrations de clips

3:08

encodant essentiellement l'image de sorte que le

3:11

modèle peut le comprendre que vous pouvez

3:13

en savoir plus dans mes autres vidéos

3:14

couvrant les modèles génératifs tels qu'ils sont

3:16

à peu près tout construit sur le clip c'est

3:19

ce qui leur permet d'avoir plus de contrôle

3:21

sur la sortie ainsi que traitées

3:23

du texte et des images plutôt que du texte uniquement

3:25

la deuxième modification utilise un

3:28

Cascade de modèles de diffusion au lieu de

3:31

en réutilisant le même itérativement comme nous

3:33

font généralement avec des modèles basés sur la diffusion

3:35

ici les modèles d'utilisation formés pour le

3:38

partie spécifique du processus de génération

3:39

ce qui signifie que chaque modèle n'a pas à

3:42

être aussi général que la diffusion régulière

3:44

débruiteur puisque chaque modèle doit se concentrer

3:46

sur une partie spécifique du processus, il peut

3:49

être beaucoup mieux dans ce domaine, ils l'utilisent

3:51

approche parce qu'ils ont observé que

3:52

les modèles de débruitage semblaient utiliser le texte

3:55

encastrements beaucoup plus pour orienter son

3:57

génération vers le début de la

3:59

processus, puis l'utiliser de moins en moins pour

4:02

concentrez-vous sur la qualité de sortie et la fidélité

4:05

ceci amène naturellement l'hypothèse

4:07

que la réutilisation du même modèle de débruitage

4:09

tout au long du processus pourrait ne pas

4:11

être le meilleur ID puisqu'il est automatiquement

4:13

se concentre sur différentes tâches et nous savons

4:15

qu'un généraliste est loin d'être un expert

4:18

niveau à toutes les tâches pourquoi ne pas en utiliser quelques-uns

4:20

experts au lieu d'un généraliste pour obtenir

4:23

de bien meilleurs résultats donc c'est ce qu'ils

4:25

fait et pourquoi ils les appellent débruitage

4:28

experts et la principale raison à cela

4h30

améliore les performances en termes de qualité et

4:32

fidélité le reste de la

4:34

l'architecture est assez similaire à d'autres

4:36

approches de mise à l'échelle des résultats finaux

4:38

avec d'autres modèles pour obtenir un high

4:40

définition image finale l'image et

4:43

les champs de synthèse vidéo commencent à peine

4:45

fou de nos jours et nous voyons

4:47

des résultats impressionnants sortent chaque semaine

4:49

Je suis super excité pour les prochaines versions

4:51

et j'aime voir différentes approches

4:53

avec à la fois des manières innovantes d'aborder

4:55

le problème et aussi aller pour différents

4:57

cas d'utilisation comme une personne formidable l'a dit un jour

5:01

quel moment pour être en vie j'espère que vous aimez

5:04

ce bref aperçu de l'approche

5:06

un peu plus haut niveau que ce que j'ai l'habitude

5:08

faire comme il faut la plupart des pièces que j'ai déjà

5:10

couverts dans de nombreuses vidéos et modifiés

5:12

qu'ils agissent différemment je vous invite à

5:15

regardez ma vidéo de diffusion stable pour apprendre

5:17

un peu plus sur l'approche de diffusion

5:19

lui-même et lire le papier de nvidia pour

5:21

en savoir plus sur cette approche spécifique

5:23

et sa mise en œuvre je vous verrai

5:26

la semaine prochaine avec un autre papier incroyable

5:32

étranger

5:36

[Musique]