KI wird immer schlauer, Leute. Vorbei sind die Zeiten, in denen künstliche Intelligenz nur damit umgehen konnte
Ich bin über a auf dieses kühne Projekt gestoßen
Daher fühlte ich mich natürlich verpflichtet, tief in die Materie einzutauchen
Was ist das Besondere an CoDi? Zunächst einmal ist dieses KI-Kraftpaket vielseitiger als jedes generative Modell, das wir bisher gesehen haben. Es ist nicht an bestimmte Modalitäten wie Bild-zu-Bild oder Text-zu-Text gebunden. Oh nein, CoDi ist ein Freigeist, denn es ist ein „Any-to-Any“-Modell.
Dieser böse Junge nimmt alles, was Sie ihm geben – Sprache, Bild, Video, Audio – und wandelt es in eine andere Modalität um.
Forscher der University of North Carolina in Chapel Hill und von Microsoft Azure Cognitive Services Research haben CoDi entwickelt, um nicht nur mehrere Modalitäten gleichzeitig zu verwalten, sondern auch Ausgaben zu generieren, die nicht einmal in den ursprünglichen Trainingsdaten enthalten sind.
Nun, das nennen wir Schlagen über Ihr Gewicht hinaus.
Noch cooler ist, dass dies alles durch eine neuartige zusammensetzbare Generierungsstrategie ermöglicht wird, die eine synchronisierte Generierung miteinander verflochtener Modalitäten ermöglicht. Stellen Sie sich ein Video mit perfekt synchronisiertem Ton vor, das von einer Maschine produziert wird, die im Wesentlichen nur errät, wie sie zusammenpassen.
Es ist wie eine Art KI-Remix-Künstler.
Für diejenigen, die Lust auf das technische Detail haben, verwendet CoDi ein mehrstufiges Trainingsschema, das bedeutet, dass es eine Vielzahl von Aufgaben trainieren und dabei alle möglichen Kombinationen von Ein- und Ausgängen ableiten kann. Es ist, als hätte es die Fähigkeit zum Multitasking.
Der Nutzen des Modells zeigt sich in seiner Architektur. Der folgende Abschnitt ist eine eher technische Zusammenfassung der wichtigsten Methoden, die die Entwickler verwenden, um das Modell so zu gestalten, wie sie es wollten.
Die Grundlage von CoDi ist ein Diffusionsmodell, insbesondere ein Latent Diffusion Model (LDM). Diese Form der generativen KI lernt Datenverteilungen, indem sie die Verbreitung von Informationen im Laufe der Zeit nachahmt.
Während des Trainings fügt es den Eingabedaten kontinuierlich zufälliges Rauschen hinzu und lernt, diesen Prozess umzukehren und die Daten wieder in ihre ursprüngliche Form zu bringen. Wenn neue Daten generiert werden, entrauscht es einfaches Rauschen, um etwas zu erzeugen, das den Trainingsdaten ähnelt.
Im Fall von LDM wird ein Autoencoder – eine Art KI-Modell, das seine Eingaben wiederherstellen kann – verwendet, um die Daten in eine kleinere „latente“ Form zu komprimieren, die dann im Laufe der Zeit verbreitet wird. Dieser Prozess reduziert den Rechenaufwand drastisch und verbessert die Effizienz des Modells.
Der einzigartige Aspekt von CoDi liegt in seiner zusammensetzbaren multimodalen Konditionierung. Mit dieser Komponente kann jede beliebige Kombination von Modalitäten – Text, Bild, Video und Audio – als Eingaben akzeptiert werden.
Dies wird erreicht, indem die Eingaben aller dieser Modalitäten im selben Raum ausgerichtet werden, der bequem durch Interpolation ihrer Darstellungen konditioniert werden kann.
Um effiziente Rechenoperationen sicherzustellen, wird eine einfache Technik namens „Bridging Alignment“ verwendet. Text wird als „Überbrückungs“-Modalität gewählt, da er häufig in Kombination mit anderen Modalitäten vorkommt, beispielsweise Text-Bild-, Text-Video- und Text-Audio-Paaren.
Mit dieser Methode kann das Modell alle vier Modalitäten im Merkmalsraum ausrichten, selbst wenn duale Modalitäten wie Bild-Audio-Paare spärlich vorhanden sind.
Das Trainieren eines Modells, das jede Eingabe in jede Ausgabe umwandeln kann, ist eine anspruchsvolle Aufgabe, die umfangreiches Lernen in Bezug auf verschiedene Datenressourcen erfordert.
Um diesem Problem zu begegnen, ist CoDi so konzipiert, dass es zusammensetzbar und integrativ ist, was bedeutet, dass einzelne Modelle für jede Modalität unabhängig erstellt und später reibungslos integriert werden können.
Beispielsweise kann ein Bilddiffusionsmodell verwendet werden, um das Wissen und die Generierungstreue eines etablierten Modells zu übertragen, das auf großen, qualitativ hochwertigen Bilddatensätzen trainiert wurde.
In ähnlicher Weise kann ein Videodiffusionsmodell den Bilddiffusor um zeitliche Module erweitern, um die zeitlichen Eigenschaften von Videos zu modellieren.
Darüber hinaus sieht der Audio-Diffusor die
Das letzte Puzzleteil besteht darin, diesen unabhängig trainierten Modellen die Zusammenarbeit bei der gleichzeitigen Generierung mehrerer Modalitäten zu ermöglichen. Dies wird erreicht, indem dem Modell modalübergreifende Aufmerksamkeitsunterschichten hinzugefügt werden.
Diese „Latent Alignment“-Technik ermöglicht es jedem modalitätsspezifischen Modell, auf die anderen zu achten und seine latenten Variablen in einen gemeinsamen Raum zu projizieren, auf den alle zugreifen können.
Dieses Design ermöglicht die nahtlose gemeinsame Generierung beliebiger Kombinationen von Modalitäten. Selbst wenn CoDi beispielsweise nur für die gemeinsame Generierung der Modalitäten A und B sowie B und C geschult ist, kann es die gemeinsame Generierung der Modalitäten A und C ohne zusätzliches Training erreichen!
Darüber hinaus kann die gemeinsame Generierung der Modalitäten A, B und C gleichzeitig erfolgen. Diese Vielseitigkeit ist möglich, weil das Modell gelernt hat, zwischen verschiedenen Modalitäten zu wechseln.
Im Wesentlichen kann CoDi durch diese Methoden effizient lernen, jede Form von Eingabe in jede andere Form von Ausgabe umzuwandeln und dabei eine hohe Generierungsqualität für alle Syntheseabläufe aufrechtzuerhalten. Dadurch eröffnet es völlig neue Möglichkeiten für multimodale KI-Interaktionen.
Versehen Sie CoDi beispielsweise mit der Texteingabe „Teddybär auf einem Skateboard, 4k, hohe Auflösung“ und es kann ein Video mit begleitendem Ton ausgeben. Oder füttern Sie es mit Text und einem Bild mit „Cyberpunk-Vibe“, und es kann Text und ein Bild generieren, die zum gegebenen Thema passen.
Beispielgenerationen sind unten aufgeführt:
Die Auswirkungen der Any-to-Any-Generation von CoDi sind enorm. In einer immer digitaler werdenden Welt bedeutet ein Tool wie CoDi, dass man mit der Technologie noch vielseitiger, natürlicher und menschenähnlicher interagieren kann. Es könnte alles verändern, von virtuellen Assistenten über Tools zur Inhaltserstellung und Barrierefreiheit bis hin zur Unterhaltung.
Aber wie immer sind die Implikationen nicht rein utopisch. Da KI immer besser in der Lage ist, realistische, multimodale Ergebnisse zu generieren, wird die Notwendigkeit, echte von KI-generierten Inhalten zu unterscheiden, immer wichtiger. Fehlinformationen könnten überzeugender und Deepfakes häufiger vorkommen.
Aber lasst uns die Parade nicht verderben. CoDi ist ein bedeutender Fortschritt in der KI-Technologie und zeigt, wie weit wir beim Training von Maschinen gekommen sind, um das reiche Geflecht der menschlichen Kommunikation zu verstehen und wiederherzustellen.
Wenn Sie tiefer in die Funktionsweise von CoDi eintauchen oder vielleicht sogar selbst damit experimentieren möchten, können Sie sich die Open-Source-Version ansehen
Was CoDi letztendlich wirklich revolutionär macht, ist seine Fähigkeit, verschiedene Datentypen nahtlos zu vermischen und Ergebnisse auf eine Weise zu generieren, die bisher für unmöglich gehalten wurde. Es ist, als würde man einem Alchemisten bei der Arbeit zusehen, wie er Blei in Gold verwandelt.
Außer in diesem Fall geht es darum, jede Art von Eingabe in jede Art von Ausgabe umzuwandeln. Es ist wirklich eine bemerkenswerte Ära der KI, in der wir leben.