2,079 lectures

AI Stack pour la génération de texte en vidéo

par Ratikesh4m2024/01/17

Trop long; Pour lire

Utiliser des outils d’IA pour créer du contenu vidéo devient non seulement facile et rapide, mais aussi créatif. Dans cet article, nous apprenons comment créer un pipeline pour générer du texte en vidéo à l'aide des outils de la couche d'abstraction.

featured image - AI Stack pour la génération de texte en vidéo

‘A banner image representing multiple server stack’ Image created by HackerNoon AI Image Generator

Dans un passé récent, avec la genèse de grands modèles de langage, nous débattons de manière critique de la question de savoir si le contenu généré par l'IA, comme l'art IA, les vidéos IA, etc., détruira la créativité des créateurs de contenu ou pourra améliorer la qualité et les aider. Dans mon blog précédent , j'ai expliqué comment les outils de génération de code d'IA peuvent contribuer à ajouter de la valeur au cycle de développement logiciel. Dans cet article, je soulignerai principalement comment, en utilisant des outils d'IA, la création de contenu vidéo devient non seulement facile et rapide, mais aussi créative. .

Avant de comprendre comment exploiter les modèles de vidéo et d'image actuels pour générer du contenu créatif et attrayant, il est important de comprendre à quoi ressemble l'état actuel. Nous pouvons superposer le paysage actuel de la génération de vidéos IA comme ci-dessous :

Éditeurs vidéo existants essayant d'intégrer l'IA dans leur flux de travail comme Adobe, Canva, etc.
Outils de montage vidéo nouvel âge basés sur l'IA comme Fliki.ai, unscreen.com, synthesia.ai, hourone.ai, etc.
Couche d'abstraction dédiée à un cas d'utilisation unique dans le flux de travail de génération vidéo, par exemple Midjourney aide à créer des images réalistes pour les vidéos, RunwayML fournit une plate-forme pour convertir une image en vidéo ou une image en image, Did aide à ajouter une animation à une image, etc.
Couche de modèle qui constitue la base de l'ensemble du paysage, les équipes logicielles peuvent exploiter cette couche pour la personnaliser en fonction de leurs cas d'utilisation.

Au fur et à mesure que nous progressons dans la flexibilité des calques pour personnaliser diminue tandis que la facilité d'utilisation augmente, dans le contexte de cet article, nous allons plonger en profondeur pour comprendre comment nous pouvons utiliser la couche d'abstraction pour générer des vidéos créatives puisque cette couche se situe au milieu de la flexibilité et facilité d'utilisation, et en tant qu'artiste, il faut le meilleur des deux mondes.

Création d'un pipeline texte-vidéo

Avant d'apprendre comment créer un pipeline pour générer du texte en vidéo à l'aide des outils de la couche d'abstraction, il est important de noter quelles seront les étapes de génération de la vidéo et quels outils peuvent être utilisés dans chaque couche.

La génération de texte en vidéo par l'IA implique les étapes suivantes :

1. Générer des scènes à partir du script à l'aide des invites GPT

La première étape que j'ai faite a été d'inviter GPT à diffuser le script hindi sous la forme de dialogues entre les personnages impliqués dans chaque scène.

Saisir

Saisir

Sortir

Sortir

2. Générer des images à partir des scènes

C'est l'étape cruciale et implique la création des images pour la scène qui a été décomposée du script, tout se résume à la façon dont nous pouvons nous exprimer de manière créative en utilisant les directives d'invite de Midjourney , l'exemple ci-dessous mentionne l'invite donnée à Midjourney pour générer une image pour une scène.

Un dessin animé d'une scène où un vieux saint hindou indien demande de l'aide à Lord Cloud ; Lord Cloud est personnifié et a le bonheur sur son visage, l'environnement autour est plein d'arbres avec des nuages sombres et des éclairs tout autour

3. Ajout d'une animation à l'image

Si vous devez ajouter une animation à l'image, vous pouvez utiliser DiD ou RunwayML pour ajouter le mouvement des personnages et l'animation de la scène.

4. Générer une voix IA pour la narration de la scène

Dans cette étape, vous pouvez générer la voix IA pour la narration à l'aide de onze laboratoires. Généralement, il s'agit de modèles de narration de synthèse vocale utilisant derrière ce qui peut sembler un peu robotique mais qui résout le but de la génération de voix, on peut la rendre plus expressive et réaliste. à partir de onze laboratoires version payante, pour cette histoire, j'avais besoin d'une narration vocale en hindi pour laquelle la narration textuelle Ai4Bharat fait un excellent travail.

5. Assembler les clips vidéo et synchroniser la voix

Il s'agit de la dernière et la plus simple étape pour ajouter les images dans un éditeur vidéo et synchroniser la voix selon la scène et la chronologie de la narration. Des outils comme Canva et Adobe Express font un excellent travail ici.

Coût approximatif de la production vidéo

Ci-dessus se trouve la description la plus simple de la façon dont vous pouvez générer rapidement une vidéo à partir de texte à l'aide de quelques outils de base. Pour mon exemple, j'ai généré une vidéo de près de 3 minutes avec 16 scènes uniques. Il serait intéressant de voir le temps et l'argent que j'ai payés. générer cette vidéo :

Coût à mi-parcours ~ 0,05 $/image - 16*0,05 = 0,8 $

RunwayML ~ 0,02 $/image - 16*0,02 = 0,32

Canva ~ Gratuit car non utilisé leurs artefacts premium

Coût total ~ 1 $/vidéo

En comparaison avec les éditeurs vidéo IA nouvel âge comme Fliki qui facturent près de 28 $/mois pour 180 minutes de création, ce qui coûterait environ 0,5 $ pour une durée de vidéo mentionnée ci-dessus.

Besoin de regrouper l'offre

Bien que le coût final de génération de la vidéo dans les éditeurs vidéo basés sur l'IA semble inférieur au coût total encouru par l'utilisation d'outils tels que Midjourney, RunwayML, etc., avec un coût supplémentaire, ces outils offrent flexibilité et créativité à un créateur de contenu vidéo et peuvent aider en générant des vidéos étonnantes qui peuvent être comparables à une scène étonnante d'un film hollywoodien, il semble que si ces outils d'IA peuvent être regroupés et intégrés au flux de travail des agences vidéo ou des maisons de production vidéo, ils peuvent produire une valeur maximale dans la production vidéo, comme Justine Moore, partenaire @a16z dans ce fil reflète également la même chose.

L O A D I N G
. . . comments & more!

About Author

Ratikesh@ratikeshmisra

Techie and creator who loves developing hacks that scale, here to learn and contribute to the tech & startup community

Read my stories