2,535 Lesungen

Diese KI kann jede Eingabe in jede Ausgabe umwandeln: Hier erfahren Sie, warum das eine große Sache ist

von Mike Young6m2023/05/27

Zu lang; Lesen

CoDi ist ein bahnbrechendes generatives Modell, das eine Vielzahl unterschiedlicher Eingaben verarbeiten kann. Es kann Text, Audio, Video und Bilder verarbeiten und in jede andere Kombination von Ausgaben umwandeln. CoDi nutzt ein mehrstufiges Trainingsschema und kann so eine Vielzahl von Aufgaben trainieren.

featured image - Diese KI kann jede Eingabe in jede Ausgabe umwandeln: Hier erfahren Sie, warum das eine große Sache ist

KI wird immer schlauer, Leute. Vorbei sind die Zeiten, in denen künstliche Intelligenz nur damit umgehen konnte eine einzige Art von Eingabe und spuckt eine einzige Art von Ausgabe aus . Dies ist die Ära von CoDi : ein bahnbrechendes generatives Modell, das eine Mischung aus Eingaben (z. B. Text, Audio, Video, Bilder) verarbeiten und in jede andere Kombination von Ausgaben umwandeln kann.

Ich bin über a auf dieses kühne Projekt gestoßen twittern von Avi Schiffmann, einem KI-Enthusiasten, dessen Neugier keine Grenzen kennt.

Daher fühlte ich mich natürlich verpflichtet, tief in die Materie einzutauchen Papier Das beschreibt diesen aufregenden Durchbruch. Schnall dich an, denn es ist eine wilde Fahrt.

Willkommen auf der Party, CoDi

Was ist das Besondere an CoDi? Zunächst einmal ist dieses KI-Kraftpaket vielseitiger als jedes generative Modell, das wir bisher gesehen haben. Es ist nicht an bestimmte Modalitäten wie Bild-zu-Bild oder Text-zu-Text gebunden. Oh nein, CoDi ist ein Freigeist, denn es ist ein „Any-to-Any“-Modell.

Dieser böse Junge nimmt alles, was Sie ihm geben – Sprache, Bild, Video, Audio – und wandelt es in eine andere Modalität um.

Forscher der University of North Carolina in Chapel Hill und von Microsoft Azure Cognitive Services Research haben CoDi entwickelt, um nicht nur mehrere Modalitäten gleichzeitig zu verwalten, sondern auch Ausgaben zu generieren, die nicht einmal in den ursprünglichen Trainingsdaten enthalten sind.

Nun, das nennen wir Schlagen über Ihr Gewicht hinaus.

Noch cooler ist, dass dies alles durch eine neuartige zusammensetzbare Generierungsstrategie ermöglicht wird, die eine synchronisierte Generierung miteinander verflochtener Modalitäten ermöglicht. Stellen Sie sich ein Video mit perfekt synchronisiertem Ton vor, das von einer Maschine produziert wird, die im Wesentlichen nur errät, wie sie zusammenpassen.

Es ist wie eine Art KI-Remix-Künstler.

Aber wie funktioniert es?

Für diejenigen, die Lust auf das technische Detail haben, verwendet CoDi ein mehrstufiges Trainingsschema, das bedeutet, dass es eine Vielzahl von Aufgaben trainieren und dabei alle möglichen Kombinationen von Ein- und Ausgängen ableiten kann. Es ist, als hätte es die Fähigkeit zum Multitasking.

Der Nutzen des Modells zeigt sich in seiner Architektur. Der folgende Abschnitt ist eine eher technische Zusammenfassung der wichtigsten Methoden, die die Entwickler verwenden, um das Modell so zu gestalten, wie sie es wollten.

Vorläufig: Modell der latenten Diffusion

Die Grundlage von CoDi ist ein Diffusionsmodell, insbesondere ein Latent Diffusion Model (LDM). Diese Form der generativen KI lernt Datenverteilungen, indem sie die Verbreitung von Informationen im Laufe der Zeit nachahmt.

Während des Trainings fügt es den Eingabedaten kontinuierlich zufälliges Rauschen hinzu und lernt, diesen Prozess umzukehren und die Daten wieder in ihre ursprüngliche Form zu bringen. Wenn neue Daten generiert werden, entrauscht es einfaches Rauschen, um etwas zu erzeugen, das den Trainingsdaten ähnelt.

Im Fall von LDM wird ein Autoencoder – eine Art KI-Modell, das seine Eingaben wiederherstellen kann – verwendet, um die Daten in eine kleinere „latente“ Form zu komprimieren, die dann im Laufe der Zeit verbreitet wird. Dieser Prozess reduziert den Rechenaufwand drastisch und verbessert die Effizienz des Modells.

Zusammensetzbare multimodale Konditionierung

Der einzigartige Aspekt von CoDi liegt in seiner zusammensetzbaren multimodalen Konditionierung. Mit dieser Komponente kann jede beliebige Kombination von Modalitäten – Text, Bild, Video und Audio – als Eingaben akzeptiert werden.

Dies wird erreicht, indem die Eingaben aller dieser Modalitäten im selben Raum ausgerichtet werden, der bequem durch Interpolation ihrer Darstellungen konditioniert werden kann.

Um effiziente Rechenoperationen sicherzustellen, wird eine einfache Technik namens „Bridging Alignment“ verwendet. Text wird als „Überbrückungs“-Modalität gewählt, da er häufig in Kombination mit anderen Modalitäten vorkommt, beispielsweise Text-Bild-, Text-Video- und Text-Audio-Paaren.

Mit dieser Methode kann das Modell alle vier Modalitäten im Merkmalsraum ausrichten, selbst wenn duale Modalitäten wie Bild-Audio-Paare spärlich vorhanden sind.

Zusammensetzbare Verbreitung

Das Trainieren eines Modells, das jede Eingabe in jede Ausgabe umwandeln kann, ist eine anspruchsvolle Aufgabe, die umfangreiches Lernen in Bezug auf verschiedene Datenressourcen erfordert.

Um diesem Problem zu begegnen, ist CoDi so konzipiert, dass es zusammensetzbar und integrativ ist, was bedeutet, dass einzelne Modelle für jede Modalität unabhängig erstellt und später reibungslos integriert werden können.

Beispielsweise kann ein Bilddiffusionsmodell verwendet werden, um das Wissen und die Generierungstreue eines etablierten Modells zu übertragen, das auf großen, qualitativ hochwertigen Bilddatensätzen trainiert wurde.

In ähnlicher Weise kann ein Videodiffusionsmodell den Bilddiffusor um zeitliche Module erweitern, um die zeitlichen Eigenschaften von Videos zu modellieren.

Darüber hinaus sieht der Audio-Diffusor die Mel-Spektrogramm von Audio als Bild mit einem Kanal, und ein Textdiffusionsmodell verwendet wie die anderen Modelle einen Variations-Autoencoder, um Textdaten in eine kleinere latente Form zu komprimieren.

Gemeinsame multimodale Erzeugung durch latente Ausrichtung

Das letzte Puzzleteil besteht darin, diesen unabhängig trainierten Modellen die Zusammenarbeit bei der gleichzeitigen Generierung mehrerer Modalitäten zu ermöglichen. Dies wird erreicht, indem dem Modell modalübergreifende Aufmerksamkeitsunterschichten hinzugefügt werden.

Diese „Latent Alignment“-Technik ermöglicht es jedem modalitätsspezifischen Modell, auf die anderen zu achten und seine latenten Variablen in einen gemeinsamen Raum zu projizieren, auf den alle zugreifen können.

Dieses Design ermöglicht die nahtlose gemeinsame Generierung beliebiger Kombinationen von Modalitäten. Selbst wenn CoDi beispielsweise nur für die gemeinsame Generierung der Modalitäten A und B sowie B und C geschult ist, kann es die gemeinsame Generierung der Modalitäten A und C ohne zusätzliches Training erreichen!

Darüber hinaus kann die gemeinsame Generierung der Modalitäten A, B und C gleichzeitig erfolgen. Diese Vielseitigkeit ist möglich, weil das Modell gelernt hat, zwischen verschiedenen Modalitäten zu wechseln.

Im Wesentlichen kann CoDi durch diese Methoden effizient lernen, jede Form von Eingabe in jede andere Form von Ausgabe umzuwandeln und dabei eine hohe Generierungsqualität für alle Syntheseabläufe aufrechtzuerhalten. Dadurch eröffnet es völlig neue Möglichkeiten für multimodale KI-Interaktionen.

Versehen Sie CoDi beispielsweise mit der Texteingabe „Teddybär auf einem Skateboard, 4k, hohe Auflösung“ und es kann ein Video mit begleitendem Ton ausgeben. Oder füttern Sie es mit Text und einem Bild mit „Cyberpunk-Vibe“, und es kann Text und ein Bild generieren, die zum gegebenen Thema passen.

Beispielgenerationen sind unten aufgeführt: Überprüfen Sie das Papier für interaktive Beispiele.

Was bedeutet das für uns?

Die Auswirkungen der Any-to-Any-Generation von CoDi sind enorm. In einer immer digitaler werdenden Welt bedeutet ein Tool wie CoDi, dass man mit der Technologie noch vielseitiger, natürlicher und menschenähnlicher interagieren kann. Es könnte alles verändern, von virtuellen Assistenten über Tools zur Inhaltserstellung und Barrierefreiheit bis hin zur Unterhaltung.

Aber wie immer sind die Implikationen nicht rein utopisch. Da KI immer besser in der Lage ist, realistische, multimodale Ergebnisse zu generieren, wird die Notwendigkeit, echte von KI-generierten Inhalten zu unterscheiden, immer wichtiger. Fehlinformationen könnten überzeugender und Deepfakes häufiger vorkommen.

Aber lasst uns die Parade nicht verderben. CoDi ist ein bedeutender Fortschritt in der KI-Technologie und zeigt, wie weit wir beim Training von Maschinen gekommen sind, um das reiche Geflecht der menschlichen Kommunikation zu verstehen und wiederherzustellen.

Wenn Sie tiefer in die Funktionsweise von CoDi eintauchen oder vielleicht sogar selbst damit experimentieren möchten, können Sie sich die Open-Source-Version ansehen Codebasis auf GitHub. Wer weiß, was für wilde Transformationen Sie mit CoDi erreichen könnten?

Was CoDi letztendlich wirklich revolutionär macht, ist seine Fähigkeit, verschiedene Datentypen nahtlos zu vermischen und Ergebnisse auf eine Weise zu generieren, die bisher für unmöglich gehalten wurde. Es ist, als würde man einem Alchemisten bei der Arbeit zusehen, wie er Blei in Gold verwandelt.

Außer in diesem Fall geht es darum, jede Art von Eingabe in jede Art von Ausgabe umzuwandeln. Es ist wirklich eine bemerkenswerte Ära der KI, in der wir leben.