2,079 Lesungen

KI-Stack für die Text-zu-Video-Generierung

von Ratikesh4m2024/01/17

Zu lang; Lesen

Mithilfe von KI-Tools wird die Erstellung von Videoinhalten nicht nur einfach und schnell, sondern auch kreativ. In diesem Beitrag erfahren wir, wie wir mithilfe der Tools in der Abstraktionsebene eine Pipeline zum Generieren von Text-zu-Video erstellen können.

featured image - KI-Stack für die Text-zu-Video-Generierung

‘A banner image representing multiple server stack’ Image created by HackerNoon AI Image Generator

In der jüngsten Vergangenheit, mit der Entstehung großer Sprachmodelle, diskutieren wir kritisch darüber, ob KI-generierte Inhalte wie KI-Kunst, KI-Videos usw. die Kreativität der Inhaltsersteller zerstören oder die Qualität verbessern und ihnen helfen können. In meinem vorherigen Blog habe ich darüber gesprochen, wie KI-Tools zur Codegenerierung dazu beitragen können, den Softwareentwicklungszyklus aufzuwerten. In diesem Beitrag werde ich hauptsächlich hervorheben, wie die Erstellung von Videoinhalten durch den Einsatz von KI-Tools nicht nur einfach und schnell, sondern auch kreativ wird .

Bevor wir verstehen, wie man aktuelle Video- und Bildmodelle zur Generierung kreativer und ansprechender Inhalte nutzen kann, ist es wichtig zu verstehen, wie der aktuelle Stand aussieht. Wir können die aktuelle KI-Videogenerierungslandschaft wie folgt schichten:

Bestehende Videoeditoren, die versuchen, KI in ihren Workflow zu integrieren, wie Adobe, Canva usw.
KI-basierte New-Age-Videobearbeitungstools wie Fliki.ai, unscreen.com, synthesia.ai,hourone.ai usw.
Abstraktionsschicht , die einem einzelnen Anwendungsfall im Videogenerierungs-Workflow gewidmet ist, z. B. Midjourney hilft bei der Erstellung realistischer Bilder für Videos, RunwayML bietet eine Plattform zum Konvertieren von Bild in Video oder Bild in Bild, Did hilft beim Hinzufügen von Animationen zu Bildern und so weiter.
Die Modellschicht bildet die Basis der gesamten Landschaft. Softwareteams können diese Schicht nutzen, um sie an ihre Anwendungsfälle anzupassen.

Während wir uns oben in der Ebene bewegen, nimmt die Flexibilität zur Anpassung ab, während die Benutzerfreundlichkeit zunimmt. Für den Kontext dieses Artikels werden wir tiefer eintauchen, um zu verstehen, wie wir die Abstraktionsebene bei der Erstellung kreativer Videos verwenden können, da diese Ebene in der Mitte der Flexibilität liegt und Benutzerfreundlichkeit, und als Künstler braucht man das Beste aus beiden Welten.

Aufbau einer Text-zu-Video-Pipeline

Bevor wir lernen, wie wir mithilfe der Tools in der Abstraktionsschicht eine Pipeline zum Generieren von Text-zu-Video erstellen können, ist es wichtig, die Schritte zum Generieren des Videos festzulegen und welche Tools in den einzelnen Ebenen verwendet werden können.

Die KI-Text-zu-Video-Generierung umfasst die folgenden Schritte:

1. Generieren von Szenen aus dem Skript mithilfe von GPT-Eingabeaufforderungen

Der erste Schritt, den ich gemacht habe, bestand darin, das Hindi-Skript in Form von Dialogen zwischen den an jeder Szene beteiligten Charakteren zu verbreiten.

Eingang

Eingang

Ausgabe

Ausgabe

2. Generieren von Bildern aus den Szenen

Dies ist der entscheidende Schritt und beinhaltet die Erstellung der Bilder für die Szene, die aus dem Drehbuch abgeleitet wurden. Es kommt darauf an, wie kreativ wir uns mithilfe der Eingabeaufforderungsrichtlinien von Midjourney ausdrücken können. Im folgenden Beispiel wird die Eingabeaufforderung erwähnt, die Midjourney zum Generieren gegeben hat ein Bild für eine Szene.

Eine Karikatur einer Szene, in der der alte indische Heilige Lord Cloud um Hilfe bittet; Lord Cloud ist personifiziert und hat Glück im Gesicht, die Umgebung ist voller Bäume mit dunklen Wolken und Blitzen rundherum

3. Animation zum Bild hinzufügen

Falls Sie dem Bild Animationen hinzufügen müssen, können Sie DiD oder RunwayML verwenden, um Charakterbewegungen und Szenenanimationen hinzuzufügen.

4. Generieren einer KI-Stimme für die Szenenerzählung

In diesem Schritt können Sie die KI-Stimme für die Erzählung mithilfe von elf Laboren generieren. Im Allgemeinen handelt es sich hierbei um Text-to-Speech-Erzählmodelle, die zwar etwas roboterhaft klingen, aber den Zweck der Spracherzeugung lösen und sie ausdrucksvoller und realistischer machen können Von der kostenpflichtigen Version von Eleven Labs brauchte ich für diese Geschichte einen Hindi-Sprachkommentar, wofür der Ai4Bharat Text-to-Speech- Kommentar einen tollen Job macht.

5. Zusammenfügen der Videoclips und Synchronisieren der Stimme

Dies ist der letzte und einfachste Schritt, um die Bilder in einem Videoeditor hinzuzufügen und die Stimme entsprechend der Szene und der Erzählzeitleiste zu synchronisieren. Tools wie Canva und Adobe Express leisten hier hervorragende Arbeit.

Ungefähre Kosten für die Videoproduktion

Oben ist die einfachste Aufschlüsselung, wie Sie mit ein paar grundlegenden Tools schnell Videos aus Text erstellen können. In meinem Beispiel habe ich ein fast dreiminütiges Video mit 16 einzigartigen Szenen erstellt. Interessant wäre es, zu sehen, wie viel Zeit und Geld ich dafür aufgewendet habe Generiere dieses Video:

Kosten für die mittlere Reise: ca. 0,05 $/Bild – 16*0,05 = 0,8 $

RunwayML ~ 0,02 $/Bild – 16*0,02 = 0,32

Canva ~ Kostenlos, da die Premium-Artefakte nicht verwendet werden

Gesamtkosten: ca. 1 $/Video

Im Vergleich zu den neuen AI-Videoeditoren wie Fliki , die für 180 Minuten Erstellung fast 28 US-Dollar pro Monat verlangen, was für die oben genannte Videolänge etwa 0,5 US-Dollar kosten würde.

Das Angebot muss gebündelt werden

Obwohl die endgültigen Kosten für die Erstellung des Videos in den KI-basierten Videoeditoren im Vergleich zu den Gesamtkosten, die durch die Verwendung von Tools wie Midjourney, RunwayML usw. entstehen, geringer zu sein scheinen, bieten diese Tools einem Ersteller von Videoinhalten mit zusätzlichen Kosten Flexibilität und Kreativität und können helfen Bei der Erstellung einiger erstaunlicher Videos, die mit einer erstaunlichen Szene eines Hollywood-Films vergleichbar sind, scheint es, dass diese KI-Tools, wenn sie gebündelt und in den Arbeitsablauf von Videoagenturen oder Videoproduktionshäusern integriert werden können, den maximalen Wert in der Videoproduktion erzielen können, so Justine Auch Moore, Partner @a16z in diesem Thread, spiegelt das Gleiche wider.

L O A D I N G
. . . comments & more!

About Author

Ratikesh@ratikeshmisra

Techie and creator who loves developing hacks that scale, here to learn and contribute to the tech & startup community

Read my stories