paint-brush
AI Stack para geração de texto para vídeopor@ratikeshmisra
2,227 leituras
2,227 leituras

AI Stack para geração de texto para vídeo

por Ratikesh4m2024/01/17
Read on Terminal Reader

Muito longo; Para ler

Usar ferramentas de IA para criar conteúdo de vídeo não é apenas fácil e rápido, mas também criativo. Neste post, aprendemos como podemos criar um pipeline para gerar texto para vídeo usando as ferramentas da camada de abstração.
featured image - AI Stack para geração de texto para vídeo
Ratikesh HackerNoon profile picture
0-item
1-item

No passado recente, com a gênese de grandes modelos de linguagem, uma coisa que debatemos criticamente é se o conteúdo gerado por IA, como arte de IA, vídeos de IA, etc., destruirá a criatividade dos criadores de conteúdo ou poderá melhorar a qualidade e ajudá-los. No meu blog anterior , falei sobre como as ferramentas de geração de código de IA podem ajudar a agregar valor ao ciclo de desenvolvimento de software. Neste post irei destacar principalmente como usar ferramentas de IA para criar conteúdo de vídeo não é apenas fácil e rápido, mas também criativo .


Antes de entender como se pode aproveitar os modelos atuais de vídeo e imagem na geração de conteúdo criativo e envolvente, é importante entender como é o estado atual. Podemos colocar em camadas o cenário atual de geração de vídeo de IA conforme abaixo:

Camadas na geração de vídeo AI

  1. Editores de vídeo existentes tentando integrar IA em seu fluxo de trabalho, como Adobe, Canva, etc.

  2. Ferramentas de edição de vídeo da nova era baseadas em IA, como Fliki.ai, unscreen.com, synthesia.ai, hourone.ai, etc.

  3. Camada de abstração dedicada a um único caso de uso no fluxo de trabalho de geração de vídeo, por exemplo, Midjourney ajuda na criação de imagens realistas para vídeos, RunwayML fornece uma plataforma para converter imagem em vídeo ou imagem em imagem, Did ajuda a adicionar animação a imagem e assim por diante.

  4. Camada de modelo que forma a base de todo o cenário, as equipes de software podem aproveitar essa camada para personalizar seus casos de uso.


À medida que avançamos na flexibilidade da camada para personalizar diminui enquanto a facilidade de uso aumenta, para o contexto deste artigo iremos nos aprofundar para entender como podemos usar a camada Abstração na geração de vídeos criativos, uma vez que esta camada fica no meio da flexibilidade e facilidade de uso e, como artista, é necessário o melhor dos dois mundos.

Construindo pipeline de texto para vídeo

Antes de aprendermos como podemos criar um pipeline para gerar texto para vídeo usando as ferramentas da camada de abstração, é importante definir quais serão as etapas para gerar o vídeo e quais ferramentas podem ser usadas em cada camada.



Fluxo de trabalho de geração de vídeo de IA



A geração de texto para vídeo por IA envolve as seguintes etapas:

1. Gerando cenas a partir do script usando prompts GPT


O primeiro passo que dei foi solicitar ao GPT algumas cenas para distribuir o roteiro em hindi na forma de diálogos entre os personagens envolvidos em cada cena.


Entrada

Entrada


Saída


Saída


2. Gerando imagens a partir das cenas

Esta é a etapa crucial e envolve a criação das imagens para a cena que foi separada do roteiro, tudo se resume a quão criativamente podemos nos expressar usando as orientações do Midjourney , o exemplo abaixo menciona o prompt dado ao Midjourney para gerar uma imagem para uma cena.



Um desenho animado da cena em que o velho santo hindu indiano está pedindo ajuda a Lord Cloud; Senhor nuvem é personificado e tem felicidade no rosto, o ambiente ao redor é cheio de árvores com nuvens escuras e iluminação ao redor


Gerando Imagens


3. Adicionando animação à imagem

Caso precise adicionar animação à imagem, você pode usar DiD ou RunwayML para adicionar movimento de personagem e animação de cena.

4. Gerando voz de IA para narração da cena

Nesta etapa, você pode gerar a voz AI para a narração usando onze laboratórios, geralmente, são modelos de narração de texto para fala usando o que pode parecer um pouco robótico, mas resolve o propósito de gerar voz, pode-se torná-lo mais expressivo e realista da versão paga de onze laboratórios, para esta história eu precisava de narração em voz hindi, para a qual a narração de texto em fala do Ai4Bharat faz um ótimo trabalho.

5. Costurar os videoclipes e sincronizar a voz

Este é o último e mais simples passo para adicionar as imagens em um editor de vídeo e sincronizar a voz de acordo com a linha do tempo da cena e da narração. Ferramentas como Canva e Adobe Express fazem um ótimo trabalho aqui.

Custo aproximado de produção de vídeo

Acima está o detalhamento mais simples de como você pode gerar vídeo rapidamente a partir de texto usando algumas ferramentas básicas. Para meu exemplo, gerei um vídeo de quase 3 minutos com 16 cenas únicas. Seria interessante ver o tempo e o dinheiro que paguei para gerar este vídeo:


Custo do meio da viagem ~ US$ 0,05/imagem - 16*0,05 = US$ 0,8

RunwayML ~ $ 0,02/imagem - 16 * 0,02 = 0,32

Canva ~ Gratuito, pois não utilizou seus artefatos premium

Custo total ~ US$ 1/vídeo


Comparando-o com os editores de vídeo de IA da nova era, como o Fliki , que cobra quase US$ 28/mês por 180 minutos de criação, o que custaria aproximadamente US$ 0,5 pela duração do vídeo mencionado acima.

Precisa agrupar a oferta

Embora o custo final de geração do vídeo nos editores de vídeo baseados em IA pareça menor em comparação com o custo total incorrido pelo uso de ferramentas como Midjourney, RunwayML, etc., com custo adicional, essas ferramentas fornecem flexibilidade e criatividade a um criador de conteúdo de vídeo e podem ajudar ao gerar alguns vídeos incríveis que podem ser comparáveis a uma cena incrível de um filme de Hollywood, parece que se essas ferramentas de IA puderem ser agrupadas e integradas ao fluxo de trabalho de agências de vídeo ou produtoras de vídeo, elas poderão produzir valor máximo na produção de vídeo, como Justine Moore, parceiro @a16z neste tópico também reflete o mesmo.




Justine Moore