paint-brush
„Es ist, als ob Midjourney eine API hätte“ – Ein Blick auf Kandinsky 2.2von@mikeyoung44
2,545 Lesungen
2,545 Lesungen

„Es ist, als ob Midjourney eine API hätte“ – Ein Blick auf Kandinsky 2.2

von Mike Young9m2023/08/24
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Kandinsky v2.2 ist eine Midjourney-Alternative, die über eine Javascript-API hochwertige Bilder aus Text erzeugt.
featured image - „Es ist, als ob Midjourney eine API hätte“ – Ein Blick auf Kandinsky 2.2
Mike Young HackerNoon profile picture
0-item

KI-gestützte Bilderzeugungsmodelle revolutionieren die kreative Landschaft. Die Midjourney-Plattform ist mit ihrer textgesteuerten Bilderstellung ein wichtiger Akteur in diesem innovativen Bereich. Die auf Discord basierende Benutzeroberfläche wies jedoch einige Einschränkungen für den professionellen Einsatz auf.


Werfen wir stattdessen einen Blick auf ein neues KI-Modell namens Kandinsky 2.2, ein benutzerfreundlicheres Text-zu-Bild-Modell, das über eine vielseitige API verfügbar ist.


Im Gegensatz zu Midjourney, das über Discord betrieben wird, ermöglicht Kandinsky Entwicklern die Integration der KI-Bildgenerierung in verschiedene Programmiersprachen wie Python, Node.js und cURLs.


Das bedeutet, dass Kandinsky mit nur wenigen Codezeilen den Prozess der Bildgenerierung automatisieren kann, was es zu einem effizienteren Werkzeug für Kreativprofis macht. Und mit der neuen Version 2.2 war die Bildqualität von Kandinsky noch nie so hoch.


Abonnieren oder folge mir weiter Twitter für mehr Inhalte wie diesen!


Kandinsky 2.2 bietet ein neues Maß an Zugänglichkeit und Flexibilität bei der KI-Bildgenerierung. Es lässt sich nahtlos in mehrere Programmiersprachen und Tools integrieren und bietet ein Maß an Flexibilität, das die Midjourney-Plattform übertrifft.


Darüber hinaus führen Kandinskys fortschrittliche Diffusionstechniken zu beeindruckend fotorealistischen Bildern. Sein API-First-Ansatz erleichtert Profis die Integration KI-gestützter Visualisierung in ihren bestehenden Tech-Stack.


Beispiel für Kandinsky v2.2-Bildgenerationen


In diesem Leitfaden erkunden wir Kandinskys Potenzial für Skalierbarkeit, Automatisierung und Integration und diskutieren, wie es zur Zukunft der Kreativität beitragen kann.


Begleiten Sie uns, wenn wir uns mit den Werkzeugen und Techniken befassen, die Sie benötigen, um mithilfe dieses fortschrittlichen KI-Assistenten atemberaubende KI-Kunst in Ihre Produkte zu integrieren.

Hauptvorteile von Kandinsky 2.2

  • Open Source – Kandinsky ist vollständig Open Source. Verwenden Sie den Code direkt oder greifen Sie über die flexible API von Replicate darauf zu.
  • API-Zugriff – Integrieren Sie Kandinsky über die Replicate-API in Ihre Arbeitsabläufe in Python, Node.js, cURLs und mehr.
  • Automatisierung – Optimieren Sie Bilder programmgesteuert, indem Sie Textaufforderungen im Code ändern, um eine schnelle Iteration zu ermöglichen.
  • Skalierbarkeit – Generieren Sie Tausende von Bildern mit einfachen API-Aufrufen. Erstellen Sie Storyboards und visualisieren Sie Konzepte im großen Maßstab.
  • Benutzerdefinierte Integration – Integrieren Sie Kandinsky dank seines API-First-Designs in Ihre eigenen Tools und Produkte.
  • ControlNet – Erhalten Sie durch Texteingaben eine detaillierte Kontrolle über Bildeigenschaften wie Beleuchtung und Winkel.
  • Mehrsprachig – Versteht Eingabeaufforderungen in Englisch, Chinesisch, Japanisch, Koreanisch, Französisch und mehr.
  • Hohe Auflösung – Gestochen scharfe, detaillierte Bilder im Format 1024 x 1024, bereit für jeden Anwendungsfall.
  • Fotorealismus – Modernste Diffusionstechniken erzeugen atemberaubende, realistische Bilder auf Augenhöhe mit Midjourney.

Wie funktioniert Kandinsky?

Kandinsky 2.2 ist ein Text-zu-Bild-Diffusionsmodell, das Bilder aus Textaufforderungen generiert. Es besteht aus mehreren Schlüsselkomponenten:


  • Text-Encoder: Die Textaufforderung wird durch einen XLM-Roberta-Large-Vit-L-14-Encoder geleitet, um semantische Merkmale zu extrahieren und den Text in einen latenten Raum zu kodieren. Dadurch wird ein Texteinbettungsvektor erstellt.


  • Bildkodierer: Ein vorab trainiertes CLIP-ViT-G-Modell kodiert Bilder in denselben latenten Raum wie die Texteinbettungen. Dies ermöglicht den Abgleich zwischen Text- und Bilddarstellungen.


  • Vorrangige Diffusion: Ein Transformator ordnet zwischen dem Text, der den latenten Raum einbettet, und dem Bild, der den latenten Raum einbettet, eine Abbildung zu. Dadurch wird ein Diffusionsprior etabliert, der Text und Bilder probabilistisch verknüpft.


  • UNet: Ein Latent Diffusion UNet mit 1,22 B Parametern dient als Backbone-Netzwerk. Es nimmt eine Bildeinbettung als Eingabe und gibt Bildbeispiele von verrauscht bis sauber durch iterative Rauschunterdrückung aus.


  • ControlNet: Ein zusätzliches neuronales Netzwerk, das die Bilderzeugung auf Hilfseingaben wie Tiefenkarten bedingt. Dies ermöglicht eine kontrollierbare Bildsynthese.


  • MoVQ-Encoder/Decoder: Ein diskreter VAE, der Bildeinbettungen als diskrete latente Codes für eine effizientere Abtastung komprimiert.


Während des Trainings werden Text-Bild-Paare in verknüpfte Einbettungen codiert. Das Diffusions-UNet ist darauf trainiert, diese Einbettungen durch Rauschunterdrückung wieder in Bilder umzuwandeln.


Zur Schlussfolgerung wird der Text in eine Einbettung kodiert, durch die Diffusion vor einer Bildeinbettung abgebildet, durch MoVQ komprimiert und durch das UNet invertiert, um Bilder iterativ zu erzeugen. Das zusätzliche ControlNet ermöglicht die Steuerung von Attributen wie der Tiefe.

Wichtige Verbesserungen gegenüber früheren Versionen von Kandinsky

Bild, das die Entwicklung der Kandinsky-Plattform zeigt.

Ein Beispiel, das die Entwicklung von Kandinsky von v2.0 über v2.1 bis v2.2 zeigt. Der Realismus!

Zu den wichtigsten Verbesserungen in Kandinsky 2.2 gehören:


  1. Neuer Bild-Encoder – CLIP-ViT-G : Eines der wichtigsten Upgrades ist die Integration des CLIP-ViT-G-Bild-Encoders. Dieses Upgrade verbessert die Fähigkeit des Modells, ästhetisch ansprechende Bilder zu erzeugen, erheblich. Durch den Einsatz eines leistungsfähigeren Bildencoders kann Kandinsky 2.2 Textbeschreibungen besser interpretieren und in visuell fesselnde Bilder übersetzen.


  2. ControlNet-Unterstützung : Kandinsky 2.2 führt den ControlNet-Mechanismus ein, eine Funktion, die eine präzise Steuerung des Bilderzeugungsprozesses ermöglicht. Dieser Zusatz erhöht die Genauigkeit und Attraktivität der generierten Ausgaben. Mit ControlNet erhält das Modell die Fähigkeit, Bilder basierend auf Textführung zu manipulieren, was neue Möglichkeiten für kreative Erkundungen eröffnet.

Wie kann ich mit Kandinsky Bilder erstellen?

Sind Sie bereit, mit diesem leistungsstarken KI-Modell zu erstellen? Hier finden Sie eine Schritt-für-Schritt-Anleitung zur Verwendung der Replicate-API für die Interaktion mit Kandinsky 2.2. Auf hohem Niveau müssen Sie:


  1. Authentifizieren – Holen Sie sich Ihren Replicate-API-Schlüssel und authentifizieren Sie sich in Ihrer Umgebung.


  2. Senden Sie eine Eingabeaufforderung – Übergeben Sie Ihre Textbeschreibung im prompt . Sie können es in mehreren Sprachen angeben.


  3. Passen Sie die Parameter an – Passen Sie die Bildabmessungen, die Anzahl der Ausgänge usw. nach Bedarf an. Siehe die Modellspezif Weitere Informationen finden Sie hier oder lesen Sie weiter.


  4. Verarbeiten Sie die Antwort – Kandinsky 2.2 gibt eine URL zum generierten Bild aus. Laden Sie dieses Bild zur Verwendung in Ihrem Projekt herunter.


Der Einfachheit halber möchten Sie dies vielleicht auch ausprobieren Live-Demo um ein Gefühl für die Fähigkeiten des Modells zu bekommen, bevor Sie an Ihrem Code arbeiten.

Schritt-für-Schritt-Anleitung zur Verwendung von Kandinsky 2.2 über die Replicate-API

In diesem Beispiel verwenden wir Node, um mit dem Modell zu arbeiten. Sie müssen also zuerst den Node.js-Client installieren.


 npm install replicate


Kopieren Sie dann Ihr API-Token und legen Sie es als Umgebungsvariable fest:

 export REPLICATE_API_TOKEN=r8_*************************************


Führen Sie als Nächstes das Modell mit dem Node.js-Skript aus:

 import Replicate from "replicate"; const replicate = new Replicate({ auth: process.env.REPLICATE_API_TOKEN, }); const output = await replicate.run( "ai-forever/kandinsky-2.2:ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", { input: { prompt: "A moss covered astronaut with a black background" } } );


Sie können auch einen Webhook für Vorhersagen einrichten, um Aktualisierungen zu erhalten, wenn der Vorgang abgeschlossen ist.


 const prediction = await replicate.predictions.create({ version: "ea1addaab376f4dc227f5368bbd8eff901820fd1cc14ed8cad63b29249e9d463", input: { prompt: "A moss covered astronaut with a black background" }, webhook: "https://example.com/your-webhook", webhook_events_filter: ["completed"] });


Während Sie diesen Code in Ihre Anwendung einarbeiten, möchten Sie möglicherweise mit den Parametern des Modells experimentieren. Werfen wir einen Blick auf Kandinskys Inputs und Outputs.

Ein Beispiel für die Kandinsky 2.2-Generation aus der Eingabeaufforderung: ein Foto einer roten Katze, 8K


Ein- und Ausgänge von Kandinsky 2.2

Die Textaufforderung ist die zentrale Eingabe, die Kandinskys Bildgenerierung leitet. Indem Sie Ihre Eingabeaufforderung optimieren, können Sie die Ausgabe gestalten.


  • Eingabeaufforderung – Die Textbeschreibung, z. B. „Ein Astronaut spielt Schach auf dem Mars.“ Dies ist erforderlich.


  • Negative Eingabeaufforderung – Gibt Elemente an, die ausgeschlossen werden sollen, z. B. „kein Weltraumhelm“. Optional.


  • Breite und Höhe – Bildabmessungen in Pixeln von 384 bis 2048. Der Standardwert ist 512 x 512.


  • Num Inference Steps – Anzahl der Rauschunterdrückungsschritte während der Diffusion. Je höher, desto langsamer, aber möglicherweise qualitativ hochwertiger. Der Standardwert ist 75.


  • Num Outputs – Anzahl der pro Eingabeaufforderung zu generierenden Bilder, Standardwert ist 1.


  • Seed – Ganzzahliger Seed für die Randomisierung. Für Zufallsauswahl leer lassen.


Durch die Kombination kreativer Anregungen mit diesen Tuning-Parametern können Sie Ihr perfektes Bild erzielen.

Ergebnisse des Kandinsky-Modells

Kandinsky gibt basierend auf Ihren Eingaben eine oder mehrere Bild-URLs aus. Die URLs verweisen auf 1024 x 1024 JPG-Bilder, die im Backend gehostet werden. Sie können diese Bilder herunterladen, um sie in Ihren kreativen Projekten zu verwenden. Die Anzahl der Ausgänge hängt vom Parameter „num_outputs“ ab.


Das Ausgabeformat sieht so aus:


 { "type": "array", "items": { "type": "string", "format": "uri" }, "title": "Output" }


Durch die Generierung von Variationen können Sie das beste Ergebnis auswählen oder inspirierende Richtungen finden.

Welche Arten von Apps oder Produkten kann ich mit Kandinsky erstellen?

Die Fähigkeit, Text in Bilder umzuwandeln, ist eine bemerkenswerte Innovation, und Kandinsky 2.2 steht an der Spitze dieser Technologie. Lassen Sie uns einige praktische Möglichkeiten erkunden, wie dieses Modell verwendet werden könnte.


Im Design beispielsweise könnte die schnelle Umsetzung textlicher Ideen in visuelle Konzepte den kreativen Prozess erheblich rationalisieren.


Anstatt sich auf langwierige Diskussionen und manuelle Skizzen zu verlassen, könnten Designer Kandinsky nutzen, um ihre Ideen sofort zu visualisieren und so die Genehmigungen und Überarbeitungen durch den Kunden zu beschleunigen.


Im Bildungsbereich könnte die Umwandlung komplexer Textbeschreibungen in visuelle Diagramme das Lernen ansprechender und zugänglicher machen. Lehrer könnten herausfordernde Konzepte im Handumdrehen veranschaulichen und so das Verständnis und Interesse der Schüler an Fächern wie Biologie oder Physik steigern.

Beispiel Kandinsky 2.2 Generation, aus der Eingabeaufforderung: Aquarell-Mixed-Media-Meisterwerk, schönes weißes, gemütliches Haus mit Kaminen, einer violetten Tür, reich verziert mit Lupinen, mit Moos bewachsenen Blumentöpfen, Provence, goldenen Akzenten, Shabby-Chic-Stil, isoliert auf Weiß, äußerst fotorealistisch Details, realistisch, hohe Details, hohe Auflösung


Auch die Welt des Film- und Webdesigns könnte von Kandinsky 2.2 profitieren. Durch die Umwandlung geschriebener Drehbücher und Konzepte in visuelle Darstellungen können Regisseure und Designer eine Vorschau ihrer Arbeit in Echtzeit anzeigen.


Diese unmittelbare Visualisierung könnte die Planungsphase vereinfachen und die Zusammenarbeit zwischen Teammitgliedern fördern.


Darüber hinaus könnte Kandinskys Fähigkeit, qualitativ hochwertige Bilder zu produzieren, Türen für neue künstlerische Ausdrucksformen und professionelle Anwendungen öffnen. Von digitalen Kunstgalerien bis hin zu Printmedien sind die Einsatzmöglichkeiten vielfältig und spannend.


Aber lassen Sie uns die praktischen Einschränkungen nicht aus den Augen verlieren. Obwohl das Konzept vielversprechend ist, wird die Integration in die reale Welt vor Herausforderungen stehen, und die Qualität der erzeugten Bilder kann variieren oder eine menschliche Aufsicht erfordern.


Wie jede neue Technologie muss auch Kandinsky 2.2 wahrscheinlich verfeinert und angepasst werden, um Ihren Anforderungen gerecht zu werden.

Gehen Sie noch einen Schritt weiter – Entdecken Sie ähnliche Modelle mit AIModels.fyi

AIModels.fyi ist eine wertvolle Ressource zum Entdecken von KI-Modellen, die auf spezifische kreative Anforderungen zugeschnitten sind. Sie können verschiedene Modelltypen erkunden, vergleichen und sogar nach Preis sortieren. Es handelt sich um eine kostenlose Plattform, die Übersichts-E-Mails anbietet, um Sie über neue Modelle auf dem Laufenden zu halten.


So finden Sie ähnliche Modelle wie Kandinsky-2.2:


  1. Besuchen AIModels.fyi .


  2. Geben Sie über die Suchleiste eine Beschreibung Ihres Anwendungsfalls ein. Zum Beispiel, " realistische Porträts " oder " Hochwertiger Text-zu-Bild-Generator . "


  3. Sehen Sie sich die Modellkarten für jedes Modell an und wählen Sie das beste Modell für Ihren Anwendungsfall aus.


  4. Schauen Sie sich die Modelldetailseite für jedes Modell an und vergleichen Sie, um Ihre Favoriten zu finden.

Abschluss

In diesem Leitfaden haben wir die innovativen Fähigkeiten von Kandinsky-2.2 untersucht, einem mehrsprachigen latenten Text-zu-Bild-Diffusionsmodell.


Vom Verständnis der technischen Umsetzung bis zur Nutzung durch Schritt-für-Schritt-Anleitungen sind Sie jetzt in der Lage, die Leistungsfähigkeit der KI bei Ihren kreativen Unternehmungen zu nutzen.


Darüber hinaus öffnet AIModels.fyi Türen zu einer Welt voller Möglichkeiten, indem es Ihnen hilft, ähnliche Modelle zu entdecken und zu vergleichen. Nutzen Sie das Potenzial der KI-gesteuerten Inhaltserstellung und abonnieren Sie weitere Tutorials, Updates und Inspirationen auf AIModels.fyi. Viel Spaß beim Entdecken und Gestalten!


Abonnieren oder folge mir weiter Twitter für mehr Inhalte wie diesen!

Weiterführende Literatur: Erkundung von KI-Modellen und -Anwendungen

Für diejenigen, die sich für die Fähigkeiten von KI-Modellen und ihre vielfältigen Anwendungen interessieren, finden Sie hier einige relevante Artikel, die sich mit verschiedenen Aspekten der KI-gestützten Inhaltsgenerierung und -manipulation befassen:


  1. AI-Logo-Generator: Erlich : Entdecken Sie, wie der AI Logo Generator Erlich KI nutzt, um einzigartige und optisch ansprechende Logos zu erstellen und so Ihr Verständnis für das kreative Potenzial von KI zu erweitern.


  2. Beste Upscaler : Entdecken Sie einen umfassenden Überblick über die besten Upscaling-KI-Modelle und geben Sie Einblicke in die Verbesserung der Bildauflösung und -qualität.


  3. So skalieren Sie mittendrin: Eine Schritt-für-Schritt-Anleitung : Entdecken Sie eine detaillierte Anleitung zur effektiven Hochskalierung von Bildern mithilfe des Midjourney-KI-Modells und erweitern Sie so Ihr Wissen über Bildverbesserungstechniken.


  4. Verabschieden Sie sich vom Bildrauschen: So verbessern Sie alte Bilder mit ScuNet GAN : Tauchen Sie mit ScuNet GAN in den Bereich der Bildrauschunterdrückung und -wiederherstellung ein und gewinnen Sie Einblicke in die Erhaltung der Bildqualität über einen längeren Zeitraum.


  5. Hauchen Sie alten Fotos mit KI neues Leben ein: Ein Anfängerleitfaden für Gfpgan : Erfahren Sie, wie das Gfpgan-KI-Modell alten Fotos neues Leben einhaucht, und erhalten Sie einen Leitfaden für Einsteiger, um wertvolle Erinnerungen wiederzubeleben.


  6. Vergleich von Gfpgan und Codeformer: Ein tiefer Einblick in die KI-Gesichtswiederherstellung : Gewinnen Sie Einblicke in die Nuancen der KI-basierten Gesichtswiederherstellung, indem Sie die Modelle Gfpgan und Codeformer vergleichen.


  7. NightmareAI: KI-Modelle vom Feinsten : Sehen Sie sich die besten Modelle des Nightmare AI-Teams an.


  8. ESRGAN vs. Real-ESRGAN: Von der theoretischen zur realen Superauflösung mit KI : Verstehen Sie die Nuancen zwischen den KI-Modellen ESRGAN und Real-ESRGAN und beleuchten Sie Superauflösungstechniken.


  9. Real-ESRGAN vs. SwinIR: KI-Modelle für Wiederherstellung und Hochskalierung : Vergleichen Sie die Modelle Real-ESRGAN und SwinIR und gewinnen Sie Einblicke in ihre Wirksamkeit bei der Bildwiederherstellung und -hochskalierung.


Auch hier veröffentlicht