paint-brush
"C'est comme si Midjourney avait une API" - Jetez un œil à Kandinsky 2.2par@mikeyoung44
2,545 lectures
2,545 lectures

"C'est comme si Midjourney avait une API" - Jetez un œil à Kandinsky 2.2

par Mike Young9m2023/08/24
Read on Terminal Reader

Trop long; Pour lire

Kandinsky v2.2 est une alternative à Midjourney qui produit des images de haute qualité à partir de texte via une API javascript.
featured image - "C'est comme si Midjourney avait une API" - Jetez un œil à Kandinsky 2.2
Mike Young HackerNoon profile picture
0-item

Les modèles de génération d’images basés sur l’IA révolutionnent le paysage créatif. La plateforme Midjourney a été un acteur clé dans ce domaine innovant avec sa création d'images basée sur le texte. Cependant, son interface basée sur Discord présentait certaines limites pour un usage professionnel.


Jetons plutôt un coup d'œil à un nouveau modèle d'IA appelé Kandinsky 2.2, un modèle texte-image plus convivial disponible via une API polyvalente.


Contrairement à Midjourney, qui fonctionne via Discord, Kandinsky permet aux développeurs d'intégrer la génération d'images IA dans divers langages de programmation tels que Python, Node.js et cURL.


Cela signifie qu'avec seulement quelques lignes de code, Kandinsky peut automatiser le processus de génération d'images, ce qui en fait un outil plus efficace pour les professionnels de la création. Et avec la nouvelle version v2.2, la qualité d'image de Kandinsky n'a jamais été aussi élevée.


S'abonner ou suivez-moi sur Twitter pour plus de contenu comme celui-ci !


Kandinsky 2.2 apporte un nouveau niveau d'accessibilité et de flexibilité à la génération d'images IA. Il s'intègre parfaitement à plusieurs langages et outils de programmation, offrant un niveau de flexibilité qui surpasse la plateforme Midjourney.


De plus, les techniques de diffusion avancées de Kandinsky donnent lieu à des images incroyablement photoréalistes. Son approche basée sur l'API permet aux professionnels d'intégrer plus facilement la visualisation basée sur l'IA dans leur pile technologique existante.


Exemple de générations d'images Kandinsky v2.2


Dans ce guide, nous explorerons le potentiel d'évolutivité, d'automatisation et d'intégration de Kandinsky, et discuterons de la manière dont il peut contribuer à l'avenir de la créativité.


Rejoignez-nous pour découvrir les outils et techniques nécessaires pour intégrer de superbes œuvres d'art d'IA dans vos produits à l'aide de cet assistant d'IA avancé.

Principaux avantages de Kandinsky 2.2

  • Open source – Kandinsky est entièrement open source. Utilisez le code directement ou accédez-y via l'API flexible de Replicate.
  • Accès API - Intégrez Kandinsky dans vos flux de travail en Python, Node.js, cURLs et plus encore via l'API Replicate.
  • Automatisation - Ajustez les images par programme en modifiant les invites de texte dans le code pour une itération rapide.
  • Évolutivité - Générez des milliers d'images avec de simples appels API. Créez des storyboards et visualisez des concepts à grande échelle.
  • Intégration personnalisée - Incorporez Kandinsky dans vos propres outils et produits grâce à sa conception basée sur l'API.
  • ControlNet - Obtenez un contrôle granulaire sur les propriétés de l'image telles que l'éclairage et l'angle via des invites textuelles.
  • Multilingue – Comprend les invites en anglais, chinois, japonais, coréen, français et plus encore.
  • Haute résolution : images 1 024 x 1 024 nettes et détaillées, prêtes à être utilisées dans tous les cas.
  • Photoréalisme – Les techniques de diffusion de pointe produisent des images époustouflantes et réalistes comparables à celles de Midjourney.

Comment fonctionne Kandinsky ?

Kandinsky 2.2 est un modèle de diffusion texte-image qui génère des images à partir d'invites textuelles. Il se compose de plusieurs éléments clés :


  • Encodeur de texte : l'invite de texte passe via un encodeur XLM-Roberta-Large-Vit-L-14 pour extraire les caractéristiques sémantiques et encoder le texte dans un espace latent. Cela produit un vecteur d'incorporation de texte.


  • Encodeur d'image : un modèle CLIP-ViT-G pré-entraîné encode les images dans le même espace latent que les intégrations de texte. Cela permet la correspondance entre les représentations de texte et d’image.


  • Diffusion préalable : un transformateur mappe entre le texte intégrant un espace latent et l'image intégrant un espace latent. Cela établit un a priori de diffusion qui relie le texte et les images de manière probabiliste.


  • UNet : Un paramètre 1.22B Latent Diffusion UNet sert de réseau fédérateur. Il prend une image intégrée en entrée et génère des échantillons d'image du bruit au nettoyage via un débruitage itératif.


  • ControlNet : Un réseau neuronal supplémentaire qui conditionne la génération d'images sur des entrées auxiliaires telles que des cartes de profondeur. Cela permet une synthèse d’image contrôlable.


  • Encodeur/décodeur MoVQ : un VAE discret qui compresse les intégrations d'images sous forme de codes latents discrets pour un échantillonnage plus efficace.


Pendant la formation, les paires texte-image sont codées dans des intégrations liées. La diffusion UNet est entraînée à inverser ces intégrations en images par débruitage.


À des fins d'inférence, le texte est codé selon une intégration, mappé via la diffusion avant une intégration d'image, compressé par MoVQ et inversé par UNet pour générer des images de manière itérative. Le ControlNet supplémentaire permet de contrôler des attributs comme la profondeur.

Principales améliorations par rapport aux versions précédentes de Kandinsky

Image montrant l'évolution de la plateforme Kandinsky.

Un exemple montrant l'évolution de Kandinsky de la v2.0 à la v2.1 puis à la v2.2. Le réalisme !

Les principales améliorations de Kandinsky 2.2 incluent :


  1. Nouvel encodeur d'image - CLIP-ViT-G : L'une des mises à niveau clés est l'intégration de l'encodeur d'image CLIP-ViT-G. Cette mise à niveau renforce considérablement la capacité du modèle à générer des images esthétiques. En utilisant un encodeur d'image plus puissant, Kandinsky 2.2 peut mieux interpréter les descriptions textuelles et les traduire en images visuellement captivantes.


  2. Prise en charge de ControlNet : Kandinsky 2.2 introduit le mécanisme ControlNet, une fonctionnalité qui permet un contrôle précis du processus de génération d'images. Cet ajout améliore la précision et l’attrait des résultats générés. Avec ControlNet, le modèle acquiert la capacité de manipuler des images en fonction du guidage textuel, ouvrant ainsi de nouvelles voies d'exploration créative.

Comment puis-je utiliser Kandinsky pour créer des images ?

Prêt à commencer à créer avec ce puissant modèle d'IA ? Voici un guide étape par étape pour utiliser l'API Replicate pour interagir avec Kandinsky 2.2. À un niveau élevé, vous devrez :


  1. Authentifier - Obtenez votre clé API de réplication et authentifiez-vous dans votre environnement.


  2. Envoyer une invite - Transmettez votre description textuelle dans le paramètre prompt . Vous pouvez le spécifier dans plusieurs langues.


  3. Personnaliser les paramètres - Ajustez les dimensions de l'image, le nombre de sorties, etc. selon vos besoins. Se référer au spécification du modèle pour plus de détails, ou poursuivez votre lecture.


  4. Traitez la réponse - Kandinsky 2.2 génère une URL vers l'image générée. Téléchargez cette image pour l'utiliser dans votre projet.


Pour plus de commodité, vous pouvez également essayer ceci démo en direct pour avoir une idée des capacités du modèle avant de travailler sur votre code.

Guide pas à pas d'utilisation de Kandinsky 2.2 via l'API Replicate

Dans cet exemple, nous utiliserons Node pour travailler avec le modèle. Vous devrez donc d’abord installer le client Node.js.


 npm install replicate


Ensuite, copiez votre jeton API et définissez-le comme variable d'environnement :

 export REPLICATE_API_TOKEN=r8_*************************************


Ensuite, exécutez le modèle à l'aide du script Node.js :

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


Vous pouvez également configurer un webhook pour les prédictions afin de recevoir des mises à jour une fois le processus terminé.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


Au fur et à mesure que vous intégrez ce code dans votre application, vous souhaiterez expérimenter les paramètres du modèle. Jetons un coup d'œil aux entrées et sorties de Kandinsky.

Un exemple de génération Kandinsky 2.2, à partir de l'invite : une photo de chat rouge, 8 K


Entrées et sorties de Kandinsky 2.2

L'invite de texte est l'entrée principale qui guide la génération d'images de Kandinsky. En modifiant votre invite, vous pouvez façonner le résultat.


  • Invite : la description textuelle, par exemple "Un astronaute jouant aux échecs sur Mars". Ceci est nécessaire.


  • Invite négative : spécifie les éléments à exclure, comme « pas de casque spatial ». Facultatif.


  • Largeur et hauteur : dimensions de l'image en pixels, de 384 à 2 048. La valeur par défaut est 512 x 512.


  • Num Inference Steps - Nombre d'étapes de débruitage pendant la diffusion, plus élevé est plus lent mais potentiellement de meilleure qualité. La valeur par défaut est 75.


  • Num Outputs - Nombre d'images à générer par invite, la valeur par défaut est 1.


  • Seed - Graine entière pour la randomisation. Laissez vide pour le hasard.


La combinaison d’invites créatives avec ces paramètres de réglage vous permet de créer votre image parfaite.

Résultats du modèle Kandinsky

Kandinsky génère une ou plusieurs URL d'image en fonction de vos entrées. Les URL pointent vers des images JPG 1024 x 1024 hébergées sur le backend. Vous pouvez télécharger ces images pour les utiliser dans vos projets créatifs. Le nombre de sorties dépend du paramètre "num_outputs".


Le format de sortie ressemble à ceci :


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


En générant des variantes, vous pouvez choisir le meilleur résultat ou trouver des orientations inspirantes.

Quels types d’applications ou de produits puis-je créer avec Kandinsky ?

La possibilité de transformer du texte en images est une innovation remarquable, et Kandinsky 2.2 est à la pointe de cette technologie. Explorons quelques façons pratiques d'utiliser ce modèle.


Dans le domaine du design, par exemple, la conversion rapide d’idées textuelles en concepts visuels pourrait considérablement rationaliser le processus créatif.


Plutôt que de s'appuyer sur de longues discussions et des croquis manuels, les concepteurs pouvaient utiliser Kandinsky pour visualiser instantanément leurs idées, accélérant ainsi les approbations et les révisions des clients.


Dans le domaine de l’éducation, la transformation de descriptions textuelles complexes en diagrammes visuels pourrait rendre l’apprentissage plus engageant et accessible. Les enseignants pourraient illustrer des concepts difficiles à la volée, améliorant ainsi la compréhension et l'intérêt des élèves pour des matières comme la biologie ou la physique.

Exemple de génération Kandinsky 2.2, à partir de l'invite : chef-d'œuvre d'aquarelle en techniques mixtes, belle maison blanche et confortable avec des cheminées, une porte violette, richement décorée de lupin, des pots de fleurs recouverts de mousse, Provence, accents dorés, style shabby chic, isolé sur blanc, extrêmement photoréaliste détails, détails réalistes, haute résolution


Le monde du cinéma et du web design pourrait également bénéficier de Kandinsky 2.2. En transformant des scripts et des concepts écrits en visuels, les réalisateurs et les concepteurs peuvent prévisualiser leur travail en temps réel.


Cette visualisation immédiate pourrait simplifier la phase de planification et favoriser la collaboration entre les membres de l’équipe.


De plus, la capacité de Kandinsky à produire des images de haute qualité pourrait ouvrir la porte à de nouvelles formes d'expression artistique et à de nouvelles applications professionnelles. Des galeries d’art numérique aux médias imprimés, les utilisations potentielles sont vastes et passionnantes.


Mais ne perdons pas de vue les limites pratiques. Bien que le concept soit prometteur, l'intégration dans le monde réel sera confrontée à des défis et la qualité des images générées peut varier ou nécessiter une surveillance humaine.


Comme toute technologie émergente, Kandinsky 2.2 devra probablement être peaufiné et adapté pour répondre à vos besoins.

Aller plus loin - Découvrez des modèles similaires avec AIModels.fyi

AIModels.fyi est une ressource précieuse pour découvrir des modèles d'IA adaptés à des besoins créatifs spécifiques. Vous pouvez explorer différents types de modèles, les comparer et même trier par prix. C'est une plateforme gratuite qui propose des e-mails récapitulatifs pour vous tenir informé des nouveaux modèles.


Pour trouver des modèles similaires à Kandinsky-2.2 :


  1. Visite AIModels.pour info .


  2. Utilisez la barre de recherche pour saisir une description de votre cas d'utilisation. Par exemple, " portraits réalistes " ou " générateur de texte en image de haute qualité . "


  3. Consultez les fiches modèles pour chaque modèle et choisissez celle qui convient le mieux à votre cas d'utilisation.


  4. Consultez la page de détails du modèle pour chaque modèle et comparez pour trouver vos favoris.

Conclusion

Dans ce guide, nous avons exploré les capacités innovantes de Kandinsky-2.2, un modèle de diffusion latente multilingue de texte à image.


De la compréhension de sa mise en œuvre technique à son utilisation grâce à des instructions étape par étape, vous êtes désormais équipé pour tirer parti de la puissance de l'IA dans vos efforts créatifs.


De plus, AIModels.fyi ouvre les portes sur un monde de possibilités en vous aidant à découvrir et à comparer des modèles similaires. Profitez du potentiel de la création de contenu basée sur l'IA et abonnez-vous pour plus de didacticiels, de mises à jour et d'inspiration sur AIModels.fyi. Bonne exploration et création !


S'abonner ou suivez-moi sur Twitter pour plus de contenu comme celui-ci !

Lectures complémentaires : Exploration des modèles et des applications d'IA

Pour ceux qui sont intrigués par les capacités des modèles d’IA et leurs diverses applications, voici quelques articles pertinents qui abordent divers aspects de la génération et de la manipulation de contenu alimentés par l’IA :


  1. Générateur de logo IA : Erlich : Découvrez comment le générateur de logos IA Erlich exploite l'IA pour créer des logos uniques et visuellement attrayants, élargissant ainsi votre compréhension du potentiel créatif de l'IA.


  2. Meilleurs upscalers : Découvrez un aperçu complet des meilleurs modèles d'IA de mise à l'échelle, fournissant des informations sur l'amélioration de la résolution et de la qualité des images.


  3. Comment évoluer à mi-parcours : un guide étape par étape : Découvrez un guide détaillé sur la manière de mettre à l'échelle efficacement des images à l'aide du modèle Midjourney AI, enrichissant ainsi vos connaissances sur les techniques d'amélioration d'image.


  4. Dites adieu au bruit d'image : comment améliorer les anciennes images avec ScuNet GAN : Plongez dans le domaine du débruitage et de la restauration d'images à l'aide de ScuNet GAN, et obtenez des informations sur la préservation de la qualité de l'image au fil du temps.


  5. Donnez une nouvelle vie à vos vieilles photos avec l'IA : guide du débutant sur Gfpgan : Découvrez comment le modèle Gfpgan AI insuffle une nouvelle vie à de vieilles photos, en vous fournissant un guide du débutant pour revitaliser des souvenirs précieux.


  6. Comparaison de Gfpgan et Codeformer : une plongée approfondie dans la restauration du visage par l'IA : Obtenez un aperçu des nuances de la restauration du visage basée sur l'IA en comparant les modèles Gfpgan et Codeformer.


  7. NightmareAI : les modèles d'IA à leur meilleur : Découvrez les meilleurs modèles de l'équipe Nightmare AI.


  8. ESRGAN vs Real-ESRGAN : de la super résolution théorique à la super résolution réelle avec l'IA : Comprendre les nuances entre les modèles d'IA ESRGAN et Real-ESRGAN, mettant en lumière les techniques de super-résolution.


  9. Real-ESRGAN vs SwinIR : modèles d'IA pour la restauration et la mise à l'échelle : Comparez les modèles Real-ESRGAN et SwinIR pour mieux comprendre leur efficacité en matière de restauration et de mise à l'échelle d'images.


Également publié ici