paint-brush
Pila de IA para la generación de texto a vídeoby@ratikeshmisra
2,112
2,112

Pila de IA para la generación de texto a vídeo

Ratikesh4m2024/01/17
Read on Terminal Reader

Usar herramientas de inteligencia artificial para crear contenido de video no solo se está volviendo fácil y rápido, sino también creativo. En esta publicación, aprendemos cómo podemos crear una canalización para generar texto a video usando las herramientas en la capa de abstracción.
featured image - Pila de IA para la generación de texto a vídeo
Ratikesh HackerNoon profile picture
0-item
1-item

En el pasado reciente, con la génesis de grandes modelos de lenguaje, una cosa que debatimos críticamente es si el contenido generado por IA , como arte y videos de IA, etc., destruirá la creatividad de los creadores de contenido o puede mejorar la calidad y ayudarlos. En mi blog anterior , hablé sobre cómo las herramientas de generación de código de IA pueden ayudar a agregar valor al ciclo de desarrollo de software. En esta publicación, destacaré principalmente cómo el uso de herramientas de IA para crear contenido de video no solo se vuelve fácil y rápido, sino también creativo. .


Antes de comprender cómo se pueden aprovechar los modelos actuales de video e imagen para generar contenido creativo y atractivo, es importante comprender cómo se ve el estado actual. Podemos superponer el panorama actual de generación de videos con IA de la siguiente manera:

Capas en la generación de videos con IA

  1. Editores de vídeo existentes que intentan integrar la IA en su flujo de trabajo, como Adobe, Canva, etc.

  2. Herramientas de edición de video de la nueva era basadas en inteligencia artificial como Fliki.ai, unscreen.com, synthesia.ai, hourone.ai, etc.

  3. Capa de abstracción dedicada a un caso de uso único en el flujo de trabajo de generación de videos, por ejemplo, Midjourney ayuda a crear imágenes realistas para videos, RunwayML proporciona una plataforma para convertir imágenes en videos o imágenes en imágenes, Did ayuda a agregar animaciones a las imágenes, etc.

  4. Capa de modelo que forma la base de todo el panorama; los equipos de software pueden aprovechar esta capa para personalizarla según sus casos de uso.


A medida que avanzamos en la capa, la flexibilidad para personalizar disminuye mientras que la facilidad de uso aumenta, para el contexto de este artículo profundizaremos para comprender cómo podemos usar la capa Abstracción para generar videos creativos, ya que esta capa se encuentra en el medio de la flexibilidad y facilidad de uso y, como artista, uno necesita lo mejor de ambos mundos.

Creación de canales de texto a vídeo

Antes de aprender cómo podemos crear una canalización para generar texto a video usando las herramientas en la capa de abstracción, es importante anotar cuáles serán los pasos para generar el video y qué herramientas se pueden usar en cada capa.



Flujo de trabajo de generación de vídeo con IA



La generación de texto a video con IA implica los siguientes pasos:

1. Generar escenas a partir del guión mediante indicaciones GPT


El primer paso que hice fue pedirle a GPT que publicara el guión en hindi en forma de diálogos entre los personajes involucrados en cada escena.


Aporte

Aporte


Producción


Producción


2. Generando imágenes a partir de las escenas.

Este es el paso crucial e implica la creación de las imágenes para la escena que se desglosó del guión, todo se reduce a cuán creativamente podemos expresarnos usando las pautas de Midjourney . El siguiente ejemplo menciona el mensaje dado a Midjourney para generar una imagen para una escena.



Una caricatura de una escena en la que un viejo santo hindú pide ayuda a Lord Cloud; Lord Cloud está personificado y tiene felicidad en su rostro, el entorno alrededor está lleno de árboles con nubes oscuras y relámpagos por todas partes.


Generando imágenes


3. Agregar animación a la imagen.

En caso de que necesites agregar animación a la imagen, puedes usar DiD o RunwayML para agregar movimiento de personajes y animación de escenas.

4. Generación de voz con IA para la narración de la escena.

En este paso, puede generar la voz de IA para la narración usando once laboratorios; generalmente, estos son modelos de narración de texto a voz que se usan detrás, lo que puede sonar un poco robótico pero resuelve el propósito de generar voz, se puede hacer más expresivo y realista. de la versión paga de once laboratorios, para esta historia necesitaba una narración en voz hindi para la cual la narración de texto a voz Ai4Bharat hace un gran trabajo.

5. Unir los videoclips y sincronizar la voz.

Este es el último y más simple paso para agregar las imágenes en un editor de video y sincronizar la voz según la escena y la línea de tiempo de la narración; herramientas como Canva y Adobe Express hacen un gran trabajo aquí.

Costo aproximado de la producción de video

Arriba está el desglose más simple de cómo puedes generar rápidamente un video a partir de texto usando algunas herramientas básicas. Para mi ejemplo, generé un video de casi ~ 3 minutos con 16 escenas únicas, sería interesante ver el tiempo y el dinero que pagué. generar este vídeo:


Costo a mitad del viaje ~ $0,05/imagen - 16*0,05 = $0,8

RunwayML ~ $0,02/imagen - 16*0,02 = 0,32

Canva ~ Gratis ya que no utilizan sus artefactos premium

Costo total ~ $1 /vídeo


Comparándolo con los editores de video de IA de la nueva era como Fliki , que cobra casi $ 28 al mes por 180 minutos de creación, lo que costaría ~ $ 0,5 por la duración del video mencionada anteriormente.

Necesidad de agrupar la oferta

Aunque el costo final de generar el video en los editores de video basados en IA parece menor en comparación con el costo total incurrido al usar herramientas como Midjourney, RunwayML, etc., con un costo adicional, estas herramientas brindan flexibilidad y creatividad a un creador de contenido de video y pueden ayudar. Al generar algunos videos increíbles que pueden ser comparables a una escena increíble de una película de Hollywood, parece que si estas herramientas de inteligencia artificial se pueden agrupar e integrar con el flujo de trabajo de las agencias de video o productoras de video, pueden producir el máximo valor en la producción de video, como dice Justine. Moore, socio @a16z en este hilo también refleja lo mismo.




Justine Moore