paint-brush
Steckt Sora von OpenAI bereits in Schwierigkeiten?von@lukaszwronski
1,886 Lesungen
1,886 Lesungen

Steckt Sora von OpenAI bereits in Schwierigkeiten?

von Lukasz Wronski7m2024/06/17
Read on Terminal Reader

Zu lang; Lesen

Luma Dream Machine ist die neueste Sensation in der Welt der generativen KI. Es ist das beste Tool zum Generieren von Videos aus Bildern und schlägt Konkurrenten wie Pika und Runway ML. Aber wie schlägt es sich im Vergleich zum mysteriösen Sora? Da wir Sora nicht verwenden können, vergleichen wir die öffentlichen Demos von OpenAI mit dem, was Luma Dream Machine kann.
featured image - Steckt Sora von OpenAI bereits in Schwierigkeiten?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

Haben Sie von der neuesten Sensation in der Welt der generativen KI gehört, der Luma Dream Machine? Sie wird als größter Rivale von OpenAIs Sora bezeichnet. Aber ist sie wirklich so gut?


Der Vergleich ist schwierig, da Dream Machine für jeden verfügbar ist, Sora hingegen nicht. Aber schauen wir mal, was wir herausfinden können. Es lässt sich kaum bestreiten, dass Dream Machine im Moment führend ist, weil wir es tatsächlich nutzen können. Es ist das beste Tool zum Generieren von Videos aus Bildern und schlägt Konkurrenten wie Pika und Runway ML. Aber wie schlägt es sich im Vergleich zum mysteriösen Sora?

Da wir Sora nicht verwenden können, vergleichen wir die öffentlichen Demos von OpenAI mit dem, was Luma Dream Machine kann. Der Plan sieht so aus: Wir nehmen das erste Bild aus den Demovideos von OpenAI und verwenden dieselbe Eingabeaufforderung mit Lumas Dream Machine. Dadurch wird uns gezeigt, wie gut Dream Machine dieselbe Physik, Bewegung und denselben Raum wie Sora kopieren kann. Auch wenn die Demos von OpenAI nur Rosinen herausgepickt sind, können wir dennoch die Details vergleichen und sehen, wie beide Modelle funktionieren.


Unten habe ich einige Videovergleiche zusammengestellt. Jeder Satz enthält drei Beispiele. Das erste Video stammt aus der OpenAI-Demo auf der Sora-Website. Das zweite wurde mit der Bild-zu-Video-Funktion von Dream Machine erstellt und verwendet dieselbe Eingabeaufforderung und das erste Bild von Soras Demo als Leitfaden. Das dritte zeigt, wie Lumas Tool nur mit der Eingabeaufforderung funktioniert. Das ist interessant, da sowohl Sora als auch Dream Machine Text-zu-Video verwenden, sodass wir ihre Kreativität und ihre Fähigkeit, der Eingabeaufforderung zu folgen, vergleichen können.


Schauen wir uns also ohne weitere Umschweife die Beispiele an und finden wir heraus, welches Tool die Nase vorn hat.

Tokio-Spaziergang


Vergleichen wir die Demo von OpenAI mit der Luma Dream Machine. Im ersten Vergleich zeigt Dream Machine eine beeindruckende Kamerabewegung und die Aktionen der Hauptperson sind flüssig und natürlich. Es gibt jedoch Probleme mit unnatürlichen Artefakten und inkonsistentem Aussehen von Objekten und Personen im gesamten Clip. Anders als im Video von OpenAI scheint die Menge im Hintergrund im Verlauf des Videos zu schmelzen und ihre Form zu ändern.


Außerdem verändert sich das Gesicht der Hauptfigur unnatürlich, wodurch das Video offensichtlich unecht wirkt, ein Problem, das Sora nicht hat.


Im Text-zu-Video-Beispiel ist das Video von Dream Machine nicht schlecht, aber die unnatürliche Morphing-Bewegung der Objekte ist auffällig. So taucht beispielsweise aus dem Nichts ein Regenschirm in der Hand eines Fußgängers auf, was eindeutig auf die KI-Generierung hinweist. Damit ist es kein Wettbewerber für lizenzfreie Archivclips. Etwas, das Soras Generationen wahrscheinlich sein können.


Dream Machine hält sich jedoch gut an die Vorgaben: Schwarze Jacke, rotes Kleid, Lippenstift, Sonnenbrille, reflektierende Straße, Fußgänger und Neonlichter sind alle vorhanden. Also, gut gemacht, dass Sie den Details gefolgt sind!

Goldrausch


Wenn man Lumas Bild-zu-Video-Ergebnis mit dem von OpenAI vergleicht, ist es nicht schlecht. Allerdings ist die Kamerabewegung nicht so flüssig wie im Tokio-Video, sie stoppt abrupt und lässt die Szene hart erscheinen. Am schlimmsten ist die Bewegung der Figur am Ende des Clips, die unnatürlich und zufällig wirkt. Darüber hinaus werden die Gebäude auf der linken Seite mit jedem Frame weniger realistisch, ein Problem, das in Soras Beispiel nicht auftritt.


Ähnlich wie beim vorherigen Clip mangelt es an Stabilität und Konsistenz, es gibt zu viele Artefakte. Sora gelingt es auch hervorragend, dem Clip mit niedriger Bildrate und allgemeiner Old-School-Qualität einen Vintage-Look zu verleihen, was darauf hindeutet, dass es seine Ausgabe entsprechend der Eingabeaufforderung stilisieren kann, was Dream Machine hier nicht gelungen ist.


Im Text-zu-Video-Beispiel mit einer kurzen und offenen Eingabeaufforderung wählte Lumas Modell eine andere Szene aus der Geschichte des Goldrauschs. Sie scheint eher im Stil der Ära zu sein und verwendet die richtigen Farben und die richtige Beleuchtung. Der Morphing-Effekt und die unnatürliche Bewegung ruinieren jedoch den gesamten Clip und machen ihn für Videoprojekte unbrauchbar.

SUV im Staub


Dieses Video ist mein Favorit auf der Website von OpenAI. Das Auto bewegt sich sehr natürlich, mit hervorragender Beleuchtung, Schatten und Dynamik. Es ist nicht von einem echten Video zu unterscheiden und daher perfekt für Content-Ersteller. Im Gegensatz dazu ist die Kamerabewegung von Dream Machine korrekt, aber die Objekte werden unnatürlich gequetscht und verstümmelt. Im zweiten Teil des Clips wird die Perspektive stark verzerrt und sieht eindeutig wie eine KI-Generation aus.


Beim Text-zu-Video-Beispiel ist das Ergebnis eigentlich ganz gut – eines der besten, die ich mit Lumas Produkt hinbekommen habe. Es ist weniger dynamisch als das erste, sieht aber ziemlich natürlich aus. Allerdings leidet es unter einem anderen Problem. Die Eingabeaufforderung war ausführlich und gab an, dass der SUV von hinten zu sehen sein sollte, wobei der Staub von den Reifen aufsteigt. Dream Machine interpretierte dies anders.


Dies unterstreicht einen wichtigen Aspekt von KI-Inhaltsgeneratoren: Ohne präzise, schnelle Interpretation können wir Stunden damit verschwenden, Varianten zu generieren, die nicht zu unserer Vision oder unseren Anforderungen passen.

Museum


Das Museumsbeispiel ist ein anderes Biest. Nun, eigentlich kein Biest – es ist subtiler, ruhiger und weniger dynamisch. Nur ein einfacher Spaziergang mit einer ruhigen Kamera. Die Version von OpenAI ist genau. Sie ist nicht aufregend, aber es fehlt ihr nicht an Realismus. Die Version von Luma zeigt eine andere Kamerabewegung, sieht aber auch gut aus, ohne die Verzerrungen, die in anderen Clips zu sehen sind. Das Hauptproblem ist, dass die Bilder, die nicht Teil des Originalbildes sind, unscharf und unscharf erscheinen. Insgesamt ist das Video in Ordnung, und mit ein paar Optimierungen könnten wir ein ordentliches Ergebnis erzielen.


Auch im zweiten Video gibt es keine offensichtlichen visuellen Mängel. Die Galerie sieht gut aus. Mein größtes Problem ist die Wahl der Kamerabewegung im ersten Teil, die nicht sehr realistisch ist. Interessanterweise hat Dream Machine für eine Eingabeaufforderung zwei Szenen generiert, mit einem Schnitt in der Mitte, der einen anderen Raum im Museum zeigt. Es ist faszinierend, dass sich das Modell dazu entschieden hat. Der zweite Teil hat eine bessere Kamerabewegung, was ihn für das Auge angenehmer macht.

Rückwärts-Jogger


Dieses Beispiel ist interessant, weil es auf Soras Seite als eines der Probleme des Modells angezeigt wird: Der Jogger läuft in die falsche Richtung. Kein Laufband funktioniert so, aber in der KI-Welt ist alles möglich. Ist das die Chance dieser Dream Machine, zu glänzen? Das Bild-zu-Video-Ergebnis ist tatsächlich ziemlich gut.


Der Jogger läuft immer noch rückwärts, wie im Eingabebild, aber die Kamerabewegung und das Verhalten des Joggers sind nahezu perfekt. Es gibt einige kleinere Verzerrungen und die Kameraperspektive wird mit der Zeit etwas seltsam, aber mit ein wenig Rosinenpickerei könnten wir ein anständiges Ergebnis für unsere Produktionen erzielen.


Interessant ist auch die Version, die nur mit der Eingabeaufforderung generiert wurde. Sie ist sehr dynamisch und etwas verzerrt, was aber für bestimmte Produktionen geeignet sein könnte, insbesondere wenn eine verwackelte, skizzenhafte Ästhetik gewünscht ist. Gar nicht schlecht. Schließlich nähert sich Lumas Modell seinem zukünftigen Konkurrenten an.

Italienischer Welpe


Das letzte Hauptbeispiel auf der OpenAI-Site zeigt einen Dalmatiner in einer farbenfrohen italienischen Stadt. Das mit Sora erstellte Originalvideo ist nicht perfekt. In einem längeren Clip verhält sich der Hund etwas seltsam und seine Animation ist nicht so natürlich wie in anderen gezeigten Videos. Wie geht Lumas neueste KI damit um?


Gar nicht gut. Vielleicht liegt es daran, dass sie nur eine Aufnahme hatten (und der Generator ziemlich geschwindigkeitsbegrenzt ist), aber was wir sehen, ist ein Fest der Störungen und unrealistischen Bilder. Die Textur des Hundes ändert sich im Verlauf des Videos, die Gebäude sehen aus, als wären sie aus Knete, und am Ende erscheint eine weitere hundeartige Abscheulichkeit, wodurch es eher wie Salvador Dalis Werk als wie ein echtes Video aussieht. Dies ist definitiv das bisher schlimmste Beispiel.


Die Eigenkreation von Dream Machine ist nicht besser. Sie folgte nicht der Aufforderung und ließ den Dalmatiner überhaupt nicht einfließen. Es gibt kein Fenster, in dem der Hund sitzen könnte, die Gebäude sehen wie Cartoons aus und die Gesamtarchitektur ist unsinnig. Am schlimmsten sind die Radfahrer auf stark verzerrten Fahrrädern, deformierte Kreaturen, die in den Kanal fahren oder sich ohne Grund in andere Radfahrer verwandeln. Das bleibt weit hinter den Erwartungen zurück.

Urteil?

Für das, was der Öffentlichkeit jetzt zur Verfügung steht, ist Lumas neue KI wirklich beeindruckend. Sie überschreitet die Grenzen, erzeugt wirklich schöne Kamerabewegungen und oft sehr realistische Bewegungen von Personen und Objekten. Sie scheint besser zu funktionieren, wenn sie mit einem Referenzbild versehen ist, und erzeugt bessere Effekte als die aktuelle Konkurrenz.


Aber ist es so gut wie Sora? Zumindest im Moment scheint es weit davon entfernt zu sein. Soras Kreationen können zumindest auf den ersten Blick mit echten Videos verwechselt werden. Das Showcase legt nahe, dass Sora mit Archivvideos konkurrieren und Filmemachern und Content-Erstellern das Leben erleichtern könnte. Dream Machine hingegen produziert oft Störungen und befolgt Anweisungen nicht immer genau.


Dies stellt einen weiteren Fortschritt bei der Modellverbesserung dar, ist jedoch noch nicht zuverlässig und stabil genug für eine weitverbreitete Nutzung.


Ist es ein echter Rivale für Sora? Noch nicht. Wir haben jedoch nicht direkt mit Sora interagiert, und OpenAIs Showcase könnte sorgfältig kuratiert sein. Sora könnte möglicherweise ähnliche Fehler machen wie Lumas Modell. Bis Sora öffentlich verfügbar ist, können wir nicht sicher sein.


Persönlich bin ich froh, dass wir Dream Machine haben. Es bringt uns dem perfekten KI-Videogenerator näher. Es ist in einigen Fällen nützlich und wird sich wahrscheinlich mit der Zeit verbessern. Ich freue mich, dass Luma dieses Tool herausbringt und uns eine weitere Möglichkeit bietet, generative KI für Videoclips zu nutzen.


Andererseits hoffe ich, dass Sora so funktioniert wie im Showcase gezeigt. Wenn das der Fall ist, wäre das ein großer Fortschritt. Ich warte gespannt darauf, dass es öffentlich verfügbar wird, damit ich die Ergebnisse selbst vergleichen kann.