paint-brush
O Sora da OpenAI ainda está em apuros?por@lukaszwronski
1,309 leituras
1,309 leituras

O Sora da OpenAI ainda está em apuros?

por Lukasz Wronski7m2024/06/17
Read on Terminal Reader

Muito longo; Para ler

Luma Dream Machine é a última sensação no mundo da IA generativa. É a melhor ferramenta para gerar vídeos a partir de imagens, vencendo concorrentes como Pika e Runway ML. Mas como ele se compara ao misterioso Sora? Como não podemos usar o Sora, compararemos as demonstrações públicas do OpenAI com o que a máquina Luma Dream pode fazer.
featured image - O Sora da OpenAI ainda está em apuros?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

Você já ouviu falar da última sensação no mundo da IA generativa, a Luma Dream Machine? Está sendo chamado de maior rival do Sora da OpenAI. Mas é realmente tão bom?


Compará-los é complicado porque Dream Machine está disponível para todos, enquanto Sora não. Mas vamos ver o que podemos descobrir. É difícil negar que neste momento a Dream Machine está liderando porque podemos realmente usá-la. É a melhor ferramenta para gerar vídeos a partir de imagens, vencendo concorrentes como Pika e Runway ML. Mas como ele se compara ao misterioso Sora?

Como não podemos usar o Sora, compararemos as demonstrações públicas do OpenAI com o que o Luma Dream Machine pode fazer. O plano é o seguinte: pegaremos o primeiro quadro dos vídeos de demonstração do OpenAI e usaremos o mesmo prompt com o Dream Machine da Luma. Isso nos mostrará quão bem o Dream Machine pode copiar a mesma física, movimento e espaço de Sora. Mesmo que as demonstrações do OpenAI sejam escolhidas a dedo, ainda podemos comparar os detalhes e ver o desempenho de ambos os modelos.


Abaixo, reuni algumas comparações de vídeos. Cada conjunto tem três exemplos. O primeiro vídeo é da demonstração do OpenAI no site do Sora. O segundo é feito com o recurso imagem para vídeo do Dream Machine, usando o mesmo prompt e o primeiro quadro da demo de Sora como guia. A terceira mostra como a ferramenta do Luma funciona apenas com o prompt. Isso é interessante porque tanto Sora quanto Dream Machine usam texto para vídeo, para que possamos comparar sua criatividade e quão bem eles seguem as instruções.


Então, sem mais delongas, vamos conferir os exemplos e ver qual ferramenta sai na frente.

Caminhada em Tóquio


Vamos comparar a demonstração do OpenAI com a Luma Dream Machine. Na primeira comparação, Dream Machine mostra movimentos de câmera impressionantes, e as ações do protagonista são suaves e naturais. No entanto, existem problemas com artefatos não naturais e aparência inconsistente de objetos e pessoas ao longo do clipe. Ao contrário do vídeo da OpenAI, a multidão de fundo parece derreter e mudar de forma à medida que o vídeo avança.


O rosto do personagem principal também muda de forma anormal, fazendo o vídeo parecer obviamente falso, um problema que Sora não tem.


No exemplo de texto para vídeo, o vídeo do Dream Machine não é ruim, mas a transformação não natural dos objetos é perceptível. Por exemplo, um guarda-chuva aparece do nada na mão de um pedestre, indicando claramente a geração de IA. Isso faz com que não haja concorrência para clipes de arquivo isentos de royalties. Algo que as gerações de Sora provavelmente podem ser.


No entanto, Dream Machine segue bem as instruções: jaqueta preta, vestido vermelho, batom, óculos escuros, rua refletiva, pedestres e luzes de néon estão todos presentes. Então, muito bem em seguir os detalhes!

Corrida do ouro


Ao comparar o resultado de imagem para vídeo do Luma com o do OpenAI, não é terrível. Porém, o movimento da câmera não é tão suave como no vídeo de Tóquio, parando abruptamente e tornando a cena dura. A pior parte é o movimento do personagem no final do clipe, que parece pouco natural e aleatório. Além disso, os edifícios à esquerda degradam o realismo a cada quadro, um problema não visto no exemplo de Sora.


Semelhante ao clipe anterior, falta estabilidade e consistência, com muitos artefatos. Sora também se destaca em fazer o clipe parecer vintage com uma baixa taxa de quadros e qualidade geral da velha escola, sugerindo que ele pode estilizar sua saída de acordo com o prompt, o que a Dream Machine não conseguiu aqui.


No exemplo de texto para vídeo com uma sugestão curta e aberta, a modelo de Luma escolheu uma cena diferente da história da corrida do ouro. Parece mais na moda com a época, usando cores e iluminação certas. No entanto, o efeito de transformação e o movimento não natural estragam todo o clipe, tornando-o inutilizável em projetos de vídeo.

SUV na poeira


Este vídeo é o meu favorito no site da OpenAI. O carro se move com muita naturalidade, com excelente iluminação, sombras e dinâmica. É indistinguível de um vídeo real, o que o torna perfeito para criadores de conteúdo. Em contraste, o movimento da câmera do Dream Machine está correto, mas os objetos são esmagados e mutilados de forma não natural. Na segunda parte do clipe, a perspectiva fica fortemente distorcida, parecendo claramente uma geração de IA.


Para o exemplo de texto para vídeo, o resultado é realmente muito bom – um dos melhores que consegui obter do produto da Luma. É menos dinâmico que o primeiro, mas parece bastante natural. No entanto, ele sofre de um problema diferente. A solicitação foi extensa, especificando que o SUV deveria ser visto por trás com poeira saindo dos pneus. Dream Machine interpretou isso de forma diferente.


Isso destaca um aspecto fundamental dos geradores de conteúdo de IA: sem uma interpretação precisa e imediata, podemos perder horas gerando variações que não atendem à nossa visão ou necessidades.

Museu


O exemplo do Museu é um tipo diferente de animal. Bem, na verdade não é uma fera – é mais sutil, calmo e menos dinâmico. Apenas uma simples caminhada com uma câmera estável. A versão do OpenAI é precisa. Não é emocionante, mas não falta realismo. A versão de Luma apresenta um movimento de câmera diferente, mas também fica bonito, sem as distorções vistas em outros clipes. O principal problema é que as imagens que não fazem parte da imagem original aparecem borradas e sem definição. No geral, o vídeo está bom e, com alguns ajustes, conseguimos um resultado adequado.


Também não há falhas visuais óbvias no segundo vídeo. A galeria parece boa. Meu maior problema é a escolha do movimento da câmera na primeira parte, que não é muito realista. Curiosamente, Dream Machine gerou duas cenas para um prompt, com um corte no meio mostrando uma sala diferente no museu. É fascinante que a modelo tenha decidido fazer isso. A segunda parte possui melhor movimentação de câmera, tornando-a mais agradável à vista.

Corredor para trás


Este exemplo é interessante porque, na página de Sora, aparece como um dos problemas da modelo: o corredor está correndo na direção errada. Nenhuma esteira funciona assim, mas no mundo da IA tudo é possível. É a chance desta Dream Machine brilhar? O resultado da imagem para o vídeo é realmente muito bom.


O corredor ainda corre para trás, como na imagem de entrada, mas o movimento da câmera e o comportamento do corredor são quase perfeitos. Existem algumas pequenas distorções e a perspectiva da câmera fica um pouco estranha com o tempo, mas com um pouco de escolha, poderíamos obter um resultado decente para nossas produções.


A versão gerada apenas com o prompt também é interessante. É muito dinâmico e um pouco distorcido, mas pode ser adequado para certas produções, especialmente se for desejada uma estética instável e semelhante a um esboço. Nada mal. Por fim, o modelo da Luma está cada vez mais próximo do seu futuro concorrente.

Cachorro Italiano


O último exemplo principal no site OpenAI apresenta um dálmata em uma colorida cidade italiana. O vídeo original feito com Sora não é perfeito. Em um clipe mais longo, o cachorro começa a agir de maneira um pouco estranha e sua animação não é tão natural como em outros vídeos apresentados. Como a mais nova IA da Luma lida com isso?


Não estou nada bem. Talvez seja porque eles só tiveram uma tomada (e a taxa do gerador é bastante limitada), mas o que vemos é um festival de falhas e imagens irrealistas. A textura do cachorro muda conforme o vídeo avança, os prédios parecem feitos de massinha e outra abominação canina aparece no final, fazendo com que pareça mais uma obra de Salvador Dali do que um vídeo real. Este é definitivamente o pior exemplo até agora.


A própria criação da Dream Machine não é melhor. Ele não seguiu o prompt, não incluindo o Dálmata. Não há janela para o cachorro sentar, os prédios parecem de desenho animado e a arquitetura geral é absurda. O pior de tudo são os ciclistas em bicicletas fortemente distorcidas, criaturas deformadas entrando no canal ou se transformando em outros ciclistas sem qualquer motivo. Isso fica muito abaixo das expectativas.

Veredito?

Pelo que está disponível ao público agora, a nova IA da Luma é verdadeiramente impressionante. Ele ultrapassa os limites, gerando movimentos de câmera muito bons e, muitas vezes, movimentos muito realistas de pessoas e objetos. Parece funcionar melhor quando fornecido com uma imagem de referência, produzindo efeitos melhores do que a concorrência atual.


Mas é tão bom quanto Sora? Parece longe disso, pelo menos por enquanto. As criações de Sora podem ser confundidas com vídeos reais, pelo menos à primeira vista. A vitrine sugere que Sora poderia competir com vídeos stock e facilitar a vida de cineastas e criadores de conteúdo. O Dream Machine, por outro lado, muitas vezes produz falhas e nem sempre segue as instruções com precisão.


É mais um avanço nas melhorias do modelo, mas ainda não é confiável e estável o suficiente para uso generalizado.


É um verdadeiro rival para Sora? Ainda não. No entanto, não interagimos diretamente com Sora, e o showcase da OpenAI pode ser cuidadosamente selecionado. Sora poderia cometer erros semelhantes aos do modelo de Luma. Até que Sora esteja disponível publicamente, não podemos ter certeza.


Pessoalmente, estou feliz por termos o Dream Machine. Isso nos aproxima do gerador de vídeo de IA perfeito. É útil em alguns casos e provavelmente melhorará com o tempo. Agradeço à Luma por lançar esta ferramenta, dando-nos outra maneira de aproveitar IA generativa para videoclipes.


Por outro lado, espero que Sora funcione como mostrado no showcase. Se isso acontecer, será um avanço significativo. Estou esperando ansiosamente que ele fique disponível publicamente para que eu mesmo possa comparar os resultados.