paint-brush
Imagic : édition d'images AI à partir de commandes de textepar@whatsai
30,918 lectures
30,918 lectures

Imagic : édition d'images AI à partir de commandes de texte

par Louis Bouchard6m2022/10/23
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Imagic prend un tel modèle basé sur la diffusion capable de prendre du texte et de générer des images à partir de celui-ci et adapte le modèle pour éditer les images. Vous pouvez générer une image, puis apprendre au modèle à la modifier comme vous le souhaitez. Imagic : édition d'images réelles basée sur du texte avec des modèles de diffusion. ArXiv préimpression arXiv : 2210.09276. Utilisez-le avec Stable Diffusion : https://www.louisbouchard.ai/imagic/

Company Mentioned

Mention Thumbnail
featured image - Imagic : édition d'images AI à partir de commandes de texte
Louis Bouchard HackerNoon profile picture

Le journal de cette semaine pourrait bien être votre prochain modèle préféré à ce jour.

Si vous pensez que les récents modèles de génération d'images comme DALLE ou Stable Diffusion sont cool, vous ne croirez pas à quel point celui-ci est incroyable.

"Celui-ci" est Imagic.

Imagic prend un tel modèle basé sur la diffusion capable de prendre du texte et de générer des images à partir de celui-ci et adapte le modèle pour éditer les images. Regardez ça... Vous pouvez générer une image, puis apprendre au modèle à la modifier comme vous le souhaitez.

En savoir plus dans la vidéo ci-dessous...

Références:

►Lire l'article complet : https://www.louisbouchard.ai/imagic/
►Kawar, B., Zada, S., Lang, O., Tov, O., Chang, H., Dekel, T., Mosseri, I. et Irani, M., 2022. Imagic : image réelle basée sur du texte Montage avec des modèles de diffusion. prétirage arXiv arXiv:2210.09276.
► Utilisez-le avec Stable Diffusion : https://github.com/justinpinkney/stable-diffusion/blob/main/notebooks/imagic.ipynb
►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) : https://www.louisbouchard.ai/newsletter/

Transcription vidéo

0:24

regardez que vous pouvez générer une image

0:26

puis apprenez au modèle à le modifier

0:29

la façon dont vous voulez c'est un assez grand pas

0:31

pour avoir votre propre Photoshop

0:33

designer gratuitement le modèle non seulement

0:36

comprend ce que vous voulez montrer, mais

0:38

il est également capable de rester réaliste

0:41

comme conservant les propriétés de l'initiale

0:43

images juste regarder comment le chien reste

0:46

le même dans toutes les images ici cette tâche est

0:49

appelée édition d'image conditionnée par le texte

0:51

cela signifie éditer des images en utilisant uniquement

0:54

texte et une image initiale qui a été

0:57

presque impossible même pas un an

0:59

il y a maintenant regarde ce qu'il peut faire oui ça

1:03

est tout fait à partir d'une seule image d'entrée

1:05

et une courte phrase où vous voyez ce que

1:07

vous aimeriez avoir à quel point c'est incroyable

1:09

la seule chose encore plus cool, c'est comment ça

1:12

fonctionne, plongeons-y, mais d'abord si

1:15

vous apprenez actuellement l'IA ou souhaitez

1:17

commencez à l'apprendre, vous allez adorer

1:19

opportunité, je sais à quel point il peut être difficile de

1:22

faire de réels progrès lors de l'apprentissage de l'IA

1:24

structure parfois supplémentaire et

1:26

la responsabilité peut être ce que vous proposez

1:29

le prochain niveau si cela vous ressemble

1:31

rejoignez le sponsor de cette vidéo Delta

1:33

Académie à Delta Academy, vous apprenez

1:36

apprentissage par renforcement en construisant un jeu

1:38

AIS dans une cohorte vivante passe de zéro à

1:41

alphago grâce à l'exportation

1:43

tutoriels interactifs discussions en direct

1:46

avec ces experts et l'IA hebdomadaire

1:48

compétitions de construction, ce n'est pas seulement

1:51

un autre site de spam de cours c'est intense

1:53

pratique et axé sur la haute qualité

1:56

conçu par des experts de deepmind Oxford

1:58

et Cambridge c'est là que les codeurs vont

2:01

Pérenniser leur transporteur du

2:03

avance de l'IA et amusez-vous plus avec un

2:06

communauté en direct de pairs et d'experts pour

2:08

te pousser en avant tu écriras iconique

2:10

algorithmes en Python allant de dqn à

2:13

alphago l'un des programmes les plus cool de tous les temps

2:16

faites les rejoindre maintenant via mon lien ci-dessous

2:18

et utilisez le code promo what's AI pour obtenir

2:21

10% de réduction

2:23

alors comment fonctionne iMagic comme nous l'avons dit

2:26

prend une image et une légende pour éditer le

2:29

définir l'image et vous pouvez même générer

2:31

plusieurs variantes de ce modèle

2:33

comme la grande majorité des journaux

2:35

qui sont publiés ces jours-ci est basé sur

2:38

modèles de diffusion plus précisément

2:41

prend un modèle de générateur d'images qui a été

2:43

déjà formé pour générer des images à partir de

2:45

texte et l'adapte à l'édition d'images dans

2:48

leur cas il utilise Imogen que je

2:51

couvert dans une vidéo précédente c'est un

2:53

modèle génératif basé sur la diffusion capable de

2:55

créer des images haute définition après

2:57

être formé sur un énorme ensemble de données de

3:00

paires de légendes d'image dans le cas de

3:02

iMagic ils prennent simplement ce pré-formé

3:05

modèle d'image comme ligne de base et marque

3:08

modifications afin d'éditer le

3:10

images envoyées en entrée conservant l'image

3:13

apparence spécifique telle que celle du chien

3:16

la race et l'identité et l'éditer

3:18

suivant notre texte donc pour commencer nous avons

3:21

pour coder à la fois le texte et l'initiale

3:23

image Edge pour qu'elle puisse être comprise

3:25

par notre modèle d'imagerie lorsque cela est fait

3:28

nous optimisons nos encodages de texte notre texte

3:31

plongements pour mieux s'adapter à notre

3:33

image prenant essentiellement notre texte

3:35

représentation et l'optimiser pour notre

3:38

image initiale appelée e optimiser pour être

3:41

sûr qu'il comprend que dans cet exemple

3:43

nous voulons générer le même type de

3:45

image avec un oiseau similaire et

3:48

fond puis nous prenons notre pré-formé

3:51

générateur d'images pour affiner sa signification

3:53

que nous allons recycler l'image et le modèle

3:55

en conservant les intégrations de texte optimisées que nous

3:58

vient de produire le même donc ces deux

4:01

les étapes sont utilisées pour obtenir l'incorporation de texte

4:03

plus proche de l'image incrustée par

4:06

congeler l'un des deux et obtenir le

4:08

autre plus proche qui garantira que nous

4:10

optimiser à la fois le texte et l'initiale

4:12

image non seulement l'un des deux maintenant que

4:15

notre modèle comprend l'image initiale

4:17

dans notre texte et comprend qu'ils

4:19

sont similaires, nous devons l'enseigner à

4:21

générer de nouvelles variations d'image pour cela

4:24

texte cette étincelle est super simple notre texte

4:27

intégrations et image optimisée

4:29

les plongements sont très similaires mais toujours

4:32

pas exactement la même chose la seule chose que nous faisons

4:34

voilà qu'on prend l'image enchâssée

4:36

dans notre espace encodé et déplacez-le un peu

4:39

vers le texte incorporant en ce moment

4:42

si vous demandez au modèle iMagic de générer

4:45

une image en utilisant le texte optimisé

4:47

devrait vous donner la même image que votre

4:49

image d'entrée donc si vous déplacez l'intégration

4:52

un peu vers votre texte en l'incorporant

4:55

modifiera également l'image un peu vers

4:58

ce que vous voulez plus vous le déplacez

5:00

cet espace plus le montage sera gros

5:02

et plus vous vous éloignerez

5:05

votre image initiale donc la seule chose que vous

5:07

besoin de comprendre maintenant est la taille de

5:10

cette étape que vous voulez franchir vers votre

5:12

texte et voila quand vous trouvez votre

5:15

équilibre parfait vous avez un nouveau modèle

5:17

capable de générer autant de variations que

5:20

vous voulez conserver l'image importante

5:22

vues d'attribut lors de la modification du chemin

5:25

vous voulez bien sûr les résultats ne sont pas

5:27

parfait encore comme vous pouvez le voir ici où

5h30

soit le modèle ne s'édite pas correctement

5:32

ou fait des modifications d'image aléatoires à

5:35

l'image initiale comme recadrage ou

5:37

zoomer de manière inappropriée, il reste toujours

5:40

assez impressionnant si vous me demandez je trouve

5:42

le rythme de la génération d'images

5:44

des progrès incroyables et c'est les deux

5:47

incroyable et effrayant en même temps

5:50

J'adore connaître votre opinion sur ces types

5:52

de génération d'images et d'édition d'images

5:54

modèles pensez-vous qu'ils sont un bon ou

5:57

mauvaise chose quels types de conséquences vous

5:59

peut penser à partir de tels modèles devenant

6:02

de plus en plus puissant vous pouvez trouver plus

6:04

des détails sur les paramètres spécifiques qu'ils

6:06

utiliser pour obtenir ces résultats dans leur

6:08

papier auquel je vous invite définitivement

6:10

lire je vous invite aussi à regarder mon image

6:13

et vidéo si vous souhaitez plus d'informations

6:14

sur la partie génération d'image et

6:17

comprendre comment cela fonctionne énorme grâce à

6:20

mes amis de la Delta Academy pour avoir travaillé

6:22

sur le fait de rendre l'apprentissage de l'IA amusant quelque chose que je suis

6:26

passionné par s'il vous plaît essayez-le

6:28

et dites-moi ce que vous pensez que je

6h30

aime personnellement cette façon d'enseigner et

6:33

Je suis sûr que vous aussi vous remercierez pour

6:35

soutenir mon travail en vérifiant leur

6:37

site web et en regardant toute la vidéo

6:39

et j'espère que ça vous a plu je vous verrai

6:42

la semaine prochaine avec un autre papier incroyable