In der jüngsten Vergangenheit, mit der Entstehung großer Sprachmodelle, diskutieren wir kritisch darüber, ob KI-generierte Inhalte wie KI-Kunst, KI-Videos usw. die Kreativität der Inhaltsersteller zerstören oder die Qualität verbessern und ihnen helfen können. In meinem vorherigen Blog habe ich darüber gesprochen, wie KI-Tools zur Codegenerierung dazu beitragen können, den Softwareentwicklungszyklus aufzuwerten. In diesem Beitrag werde ich hauptsächlich hervorheben, wie die Erstellung von Videoinhalten durch den Einsatz von KI-Tools nicht nur einfach und schnell, sondern auch kreativ wird .
Bevor wir verstehen, wie man aktuelle Video- und Bildmodelle zur Generierung kreativer und ansprechender Inhalte nutzen kann, ist es wichtig zu verstehen, wie der aktuelle Stand aussieht. Wir können die aktuelle KI-Videogenerierungslandschaft wie folgt schichten:
Bestehende Videoeditoren, die versuchen, KI in ihren Workflow zu integrieren, wie Adobe, Canva usw.
KI-basierte New-Age-Videobearbeitungstools wie Fliki.ai, unscreen.com, synthesia.ai,hourone.ai usw.
Abstraktionsschicht , die einem einzelnen Anwendungsfall im Videogenerierungs-Workflow gewidmet ist, z. B. Midjourney hilft bei der Erstellung realistischer Bilder für Videos, RunwayML bietet eine Plattform zum Konvertieren von Bild in Video oder Bild in Bild, Did hilft beim Hinzufügen von Animationen zu Bildern und so weiter.
Die Modellschicht bildet die Basis der gesamten Landschaft. Softwareteams können diese Schicht nutzen, um sie an ihre Anwendungsfälle anzupassen.
Während wir uns oben in der Ebene bewegen, nimmt die Flexibilität zur Anpassung ab, während die Benutzerfreundlichkeit zunimmt. Für den Kontext dieses Artikels werden wir tiefer eintauchen, um zu verstehen, wie wir die Abstraktionsebene bei der Erstellung kreativer Videos verwenden können, da diese Ebene in der Mitte der Flexibilität liegt und Benutzerfreundlichkeit, und als Künstler braucht man das Beste aus beiden Welten.
Bevor wir lernen, wie wir mithilfe der Tools in der Abstraktionsschicht eine Pipeline zum Generieren von Text-zu-Video erstellen können, ist es wichtig, die Schritte zum Generieren des Videos festzulegen und welche Tools in den einzelnen Ebenen verwendet werden können.
Die KI-Text-zu-Video-Generierung umfasst die folgenden Schritte:
Der erste Schritt, den ich gemacht habe, bestand darin, das Hindi-Skript in Form von Dialogen zwischen den an jeder Szene beteiligten Charakteren zu verbreiten.
Eingang
Ausgabe
Dies ist der entscheidende Schritt und beinhaltet die Erstellung der Bilder für die Szene, die aus dem Drehbuch abgeleitet wurden. Es kommt darauf an, wie kreativ wir uns mithilfe der Eingabeaufforderungsrichtlinien von Midjourney ausdrücken können. Im folgenden Beispiel wird die Eingabeaufforderung erwähnt, die Midjourney zum Generieren gegeben hat ein Bild für eine Szene.
Eine Karikatur einer Szene, in der der alte indische Heilige Lord Cloud um Hilfe bittet; Lord Cloud ist personifiziert und hat Glück im Gesicht, die Umgebung ist voller Bäume mit dunklen Wolken und Blitzen rundherum
Falls Sie dem Bild Animationen hinzufügen müssen, können Sie DiD oder RunwayML verwenden, um Charakterbewegungen und Szenenanimationen hinzuzufügen.
In diesem Schritt können Sie die KI-Stimme für die Erzählung mithilfe von elf Laboren generieren. Im Allgemeinen handelt es sich hierbei um Text-to-Speech-Erzählmodelle, die zwar etwas roboterhaft klingen, aber den Zweck der Spracherzeugung lösen und sie ausdrucksvoller und realistischer machen können Von der kostenpflichtigen Version von Eleven Labs brauchte ich für diese Geschichte einen Hindi-Sprachkommentar, wofür der Ai4Bharat Text-to-Speech- Kommentar einen tollen Job macht.
Dies ist der letzte und einfachste Schritt, um die Bilder in einem Videoeditor hinzuzufügen und die Stimme entsprechend der Szene und der Erzählzeitleiste zu synchronisieren. Tools wie Canva und Adobe Express leisten hier hervorragende Arbeit.
Oben ist die einfachste Aufschlüsselung, wie Sie mit ein paar grundlegenden Tools schnell Videos aus Text erstellen können. In meinem Beispiel habe ich ein fast dreiminütiges Video mit 16 einzigartigen Szenen erstellt. Interessant wäre es, zu sehen, wie viel Zeit und Geld ich dafür aufgewendet habe Generiere dieses Video:
Kosten für die mittlere Reise: ca. 0,05 $/Bild – 16*0,05 = 0,8 $
RunwayML ~ 0,02 $/Bild – 16*0,02 = 0,32
Canva ~ Kostenlos, da die Premium-Artefakte nicht verwendet werden
Gesamtkosten: ca. 1 $/Video
Im Vergleich zu den neuen AI-Videoeditoren wie Fliki , die für 180 Minuten Erstellung fast 28 US-Dollar pro Monat verlangen, was für die oben genannte Videolänge etwa 0,5 US-Dollar kosten würde.
Obwohl die endgültigen Kosten für die Erstellung des Videos in den KI-basierten Videoeditoren im Vergleich zu den Gesamtkosten, die durch die Verwendung von Tools wie Midjourney, RunwayML usw. entstehen, geringer zu sein scheinen, bieten diese Tools einem Ersteller von Videoinhalten mit zusätzlichen Kosten Flexibilität und Kreativität und können helfen Bei der Erstellung einiger erstaunlicher Videos, die mit einer erstaunlichen Szene eines Hollywood-Films vergleichbar sind, scheint es, dass diese KI-Tools, wenn sie gebündelt und in den Arbeitsablauf von Videoagenturen oder Videoproduktionshäusern integriert werden können, den maximalen Wert in der Videoproduktion erzielen können, so Justine Auch Moore, Partner @a16z in diesem Thread, spiegelt das Gleiche wider.