eDiffi, le modèle le plus récent de NVIDIA, génère des images plus belles et plus précises que toutes les approches précédentes comme DALLE 2 ou Stable Diffusion. eDiffi comprend mieux le texte que vous envoyez et est plus personnalisable, ajoutant une fonctionnalité que nous avons vue dans un article précédent de NVIDIA : l'outil de peinture. En savoir plus dans la vidéo...
►Lire l'article complet : https://www.louisbouchard.ai/ediffi/
► Balaji, Y. et al., 2022, eDiffi : Modèles de diffusion texte-image avec un ensemble de débruiteurs experts, https://arxiv.org/abs/2211.01324
►Page du projet : https://deepimagination.cc/eDiffi/
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/
0:06
la nouvelle approche de pointe pour
0:08
synthèse d'image il génère mieux
0:10
des images plus belles et plus précises que
0:13
toutes les approches précédentes comme Delhi 2 ou
0:15
diffusion stable soit s'il vaut mieux
0:17
comprend le texte que vous envoyez et est
0:19
plus personnalisable en ajoutant une nouvelle fonctionnalité
0:21
nous avons vu dans un article précédent de Nvidia
0:23
l'outil de peinture comme ils le voient, vous pouvez
0:26
peindre avec des mots en bref cela signifie que vous
0:29
peut entrer quelques sujets et peindre dans
0:32
l'image ce qui devrait apparaître ici et
0:34
vous permettant de créer beaucoup plus
0:36
images personnalisées par rapport à un aléatoire
0:39
génération suite à une invite c'est
0:41
le prochain niveau vous permettant de jolie
0:43
beaucoup obtenir l'image exacte que vous avez dans
0:45
l'esprit en dessinant simplement un horrible rapide
0:47
esquisser quelque chose que même moi je peux faire comme je
0:50
mentionné que les résultats ne sont pas seulement Sota
0:52
et plus beau que la diffusion stable
0:55
mais ils sont aussi beaucoup plus contrôlables
0:57
bien sûr, c'est un cas d'utilisation différent car
0:59
il a besoin d'un peu plus de travail et d'un plus clair
1:02
ID à l'esprit pour créer un tel brouillon, mais
1:04
c'est définitivement super très excitant et
1:06
intéressant c'est aussi pourquoi je voulais
1:08
couvrez-le sur ma chaîne car ce n'est pas
1:11
simplement un meilleur modèle, mais aussi un
1:13
approche différente avec beaucoup plus
1:15
contrôle sur la sortie que l'outil n'est pas
1:17
disponible encore malheureusement mais je suis sûr
1:19
j'espère que ce sera bientôt d'ailleurs
1:22
doit absolument s'abonner au
1:23
chaîne et suivez-moi sur Twitter à quoi
1:25
dites bonjour si vous aimez ce genre de vidéo
1:27
et souhaite avoir accès facilement
1h30
des nouvelles digestes à ce sujet
1:32
terrain compliqué une autre victoire qu'ils
1:34
vous permettre d'avoir plus de contrôle dans ce
1:37
le nouveau modèle utilise la même fonctionnalité
1:39
on a vu mais autrement effectivement le modèle
1:42
génère des images Guidé par une phrase
1:44
mais il peut aussi être influencé à l'aide d'un
1:47
croquis rapide donc il faut essentiellement un
1:49
image et un texte comme entrées cela signifie
1:52
vous pouvez faire d'autres choses comme il comprend
1:54
images ici, ils en tirent parti
1:56
capacités en développant un style
1:58
approche de transfert où vous pouvez
2:00
influencer le style de l'image
2:02
processus de génération donnant une image avec
2:04
un style particulier bien avec votre
2:06
saisie de texte c'est super cool et juste
2:09
regardez les résultats pour lesquels ils parlent
2:11
eux-mêmes c'est incroyable de battre les deux
2:14
Modèles et image de transfert de style Sota
2:16
modèles de synthèse avec une seule approche
2:18
maintenant la question est de savoir comment Nvidia pourrait
2:22
développer un modèle qui crée mieux
2:23
la recherche d'images permet plus de contrôle sur
2:26
à la fois le style et la structure de l'image
2:29
ainsi qu'une meilleure compréhension et
2:31
représentant ce que vous voulez réellement dans
2:34
ton texte bien ils changent le typique
2:36
architecture de diffusion de deux manières d'abord
2:39
ils encodent le texte en utilisant deux
2:41
approches que j'ai déjà couvertes sur le
2:43
canal que nous appelons clip et T5
2:46
encodeurs cela signifie qu'ils utiliseront
2:48
modèles pré-formés pour prendre du texte et
2:50
créer divers encastrements axés sur
2:52
différentes fonctionnalités au fur et à mesure de leur formation
2:55
et se sont comportés différemment et les significations sont
2:57
juste des représentations maximisant ce que
3:00
phrase signifie en fait pour le
3:01
algorithme ou la machine pour comprendre
3:04
en ce qui concerne l'image d'entrée qu'ils viennent
3:06
utilisez également les intégrations de clips
3:08
encodant essentiellement l'image de sorte que le
3:11
modèle peut le comprendre que vous pouvez
3:13
en savoir plus dans mes autres vidéos
3:14
couvrant les modèles génératifs tels qu'ils sont
3:16
à peu près tout construit sur le clip c'est
3:19
ce qui leur permet d'avoir plus de contrôle
3:21
sur la sortie ainsi que traitées
3:23
du texte et des images plutôt que du texte uniquement
3:25
la deuxième modification utilise un
3:28
Cascade de modèles de diffusion au lieu de
3:31
en réutilisant le même itérativement comme nous
3:33
font généralement avec des modèles basés sur la diffusion
3:35
ici les modèles d'utilisation formés pour le
3:38
partie spécifique du processus de génération
3:39
ce qui signifie que chaque modèle n'a pas à
3:42
être aussi général que la diffusion régulière
3:44
débruiteur puisque chaque modèle doit se concentrer
3:46
sur une partie spécifique du processus, il peut
3:49
être beaucoup mieux dans ce domaine, ils l'utilisent
3:51
approche parce qu'ils ont observé que
3:52
les modèles de débruitage semblaient utiliser le texte
3:55
encastrements beaucoup plus pour orienter son
3:57
génération vers le début de la
3:59
processus, puis l'utiliser de moins en moins pour
4:02
concentrez-vous sur la qualité de sortie et la fidélité
4:05
ceci amène naturellement l'hypothèse
4:07
que la réutilisation du même modèle de débruitage
4:09
tout au long du processus pourrait ne pas
4:11
être le meilleur ID puisqu'il est automatiquement
4:13
se concentre sur différentes tâches et nous savons
4:15
qu'un généraliste est loin d'être un expert
4:18
niveau à toutes les tâches pourquoi ne pas en utiliser quelques-uns
4:20
experts au lieu d'un généraliste pour obtenir
4:23
de bien meilleurs résultats donc c'est ce qu'ils
4:25
fait et pourquoi ils les appellent débruitage
4:28
experts et la principale raison à cela
4h30
améliore les performances en termes de qualité et
4:32
fidélité le reste de la
4:34
l'architecture est assez similaire à d'autres
4:36
approches de mise à l'échelle des résultats finaux
4:38
avec d'autres modèles pour obtenir un high
4:40
définition image finale l'image et
4:43
les champs de synthèse vidéo commencent à peine
4:45
fou de nos jours et nous voyons
4:47
des résultats impressionnants sortent chaque semaine
4:49
Je suis super excité pour les prochaines versions
4:51
et j'aime voir différentes approches
4:53
avec à la fois des manières innovantes d'aborder
4:55
le problème et aussi aller pour différents
4:57
cas d'utilisation comme une personne formidable l'a dit un jour
5:01
quel moment pour être en vie j'espère que vous aimez
5:04
ce bref aperçu de l'approche
5:06
un peu plus haut niveau que ce que j'ai l'habitude
5:08
faire comme il faut la plupart des pièces que j'ai déjà
5:10
couverts dans de nombreuses vidéos et modifiés
5:12
qu'ils agissent différemment je vous invite à
5:15
regardez ma vidéo de diffusion stable pour apprendre
5:17
un peu plus sur l'approche de diffusion
5:19
lui-même et lire le papier de nvidia pour
5:21
en savoir plus sur cette approche spécifique
5:23
et sa mise en œuvre je vous verrai
5:26
la semaine prochaine avec un autre papier incroyable
5:32
étranger
5:36
[Musique]