paint-brush
¿Sora de OpenAI ya está en problemas?por@lukaszwronski
1,879 lecturas
1,879 lecturas

¿Sora de OpenAI ya está en problemas?

por Lukasz Wronski7m2024/06/17
Read on Terminal Reader

Demasiado Largo; Para Leer

Luma Dream Machine es la última sensación en el mundo de la IA generativa. Es la mejor herramienta para generar videos a partir de imágenes, superando a competidores como Pika y Runway ML. ¿Pero cómo se compara con el misterioso Sora? Como no podemos usar Sora, compararemos las demostraciones públicas de OpenAI con lo que puede hacer la máquina Luma Dream.
featured image - ¿Sora de OpenAI ya está en problemas?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

¿Has oído hablar de la última sensación en el mundo de la IA generativa, la Luma Dream Machine? Se le considera el mayor rival de Sora de OpenAI. ¿Pero es realmente tan bueno?


Compararlos es complicado porque Dream Machine está disponible para todos, mientras que Sora no. Pero veamos qué podemos descubrir. Es difícil negar que en este momento Dream Machine está a la cabeza porque realmente podemos usarlo. Es la mejor herramienta para generar videos a partir de imágenes, superando a competidores como Pika y Runway ML. ¿Pero cómo se compara con el misterioso Sora?

Como no podemos usar Sora, compararemos las demostraciones públicas de OpenAI con lo que puede hacer Luma Dream Machine. Este es el plan: tomaremos el primer fotograma de los videos de demostración de OpenAI y usaremos el mismo mensaje con Dream Machine de Luma. Esto nos mostrará qué tan bien Dream Machine puede copiar la misma física, movimiento y espacio que Sora. Incluso si las demostraciones de OpenAI se seleccionan cuidadosamente, aún podemos comparar los detalles y ver cómo funcionan ambos modelos.


A continuación, he reunido algunas comparaciones de videos. Cada conjunto tiene tres ejemplos. El primer vídeo es de la demostración de OpenAI en el sitio web de Sora. El segundo se realiza con la función de imagen a vídeo de Dream Machine, utilizando el mismo mensaje y el primer fotograma de la demostración de Sora como guía. El tercero muestra cómo funciona la herramienta de Luma con sólo el aviso. Esto es interesante porque tanto Sora como Dream Machine utilizan texto a vídeo, por lo que podemos comparar su creatividad y qué tan bien siguen las indicaciones.


Entonces, sin más preámbulos, veamos los ejemplos y veamos qué herramienta se destaca.

Caminata por Tokio


Comparemos la demostración de OpenAI con Luma Dream Machine. En la primera comparación, Dream Machine muestra un movimiento de cámara impresionante y las acciones del personaje principal son fluidas y naturales. Sin embargo, hay problemas con artefactos antinaturales y apariencias inconsistentes de objetos y personas a lo largo del clip. A diferencia del vídeo de OpenAI, la multitud de fondo parece derretirse y cambiar de forma a medida que avanza el vídeo.


La cara del personaje principal también cambia de forma poco natural, lo que hace que el vídeo parezca obviamente falso, un problema que Sora no tiene.


En el ejemplo de texto a video, el video de Dream Machine no es malo, pero la transformación antinatural de los objetos es notable. Por ejemplo, un paraguas aparece de la nada en la mano de un peatón, lo que indica claramente la generación de IA. Esto lo convierte en una competencia para los clips de archivo libres de regalías. Algo que probablemente puedan ser las generaciones de Sora.


Sin embargo, Dream Machine se atiene bien a las indicaciones: chaqueta negra, vestido rojo, lápiz labial, gafas de sol, calles reflectantes, peatones y luces de neón están presentes. ¡Enhorabuena por seguir los detalles!

Fiebre del oro


Al comparar el resultado de imagen a video de Luma con el de OpenAI, no es terrible. Sin embargo, el movimiento de la cámara no es tan fluido como en el vídeo de Tokio, deteniéndose abruptamente y volviendo la escena dura. La peor parte es el movimiento del personaje al final del clip, que parece antinatural y aleatorio. Además, los edificios de la izquierda pierden realismo con cada fotograma, un problema que no se ve en el ejemplo de Sora.


Al igual que en el clip anterior, hay una falta de estabilidad y coherencia, con demasiados artefactos. Sora también se destaca en hacer que el clip parezca vintage con una velocidad de fotogramas baja y una calidad general de la vieja escuela, lo que sugiere que puede estilizar su salida de acuerdo con el mensaje, lo que Dream Machine no logró aquí.


En el ejemplo de texto a vídeo con un mensaje breve y abierto, el modelo de Luma eligió una escena diferente de la historia de la fiebre del oro. Parece más acorde con la época, utilizando los colores y la iluminación adecuados. Sin embargo, el efecto de transformación y el movimiento antinatural arruinan todo el clip, haciéndolo inutilizable en proyectos de vídeo.

SUV en el polvo


Este video es mi favorito en el sitio web de OpenAI. El coche se mueve con mucha naturalidad, con excelente iluminación, sombras y dinámica. Es indistinguible de un vídeo real, lo que lo hace perfecto para los creadores de contenido. Por el contrario, el movimiento de la cámara de Dream Machine es correcto, pero los objetos quedan aplastados y destrozados de forma poco natural. En la segunda parte del clip, la perspectiva se distorsiona mucho y claramente parece una generación de IA.


Para el ejemplo de texto a video, el resultado es bastante bueno: uno de los mejores que he logrado obtener con el producto de Luma. Es menos dinámico que el primero pero parece bastante natural. Sin embargo, sufre de un problema diferente. El mensaje fue extenso y especificaba que el SUV debía verse desde atrás con polvo saliendo de los neumáticos. Dream Machine lo interpretó de otra manera.


Esto resalta un aspecto clave de los generadores de contenido de IA: sin una interpretación rápida y precisa, podemos perder horas generando variaciones que no se ajustan a nuestra visión o necesidades.

Museo


El ejemplo del Museo es un tipo diferente de bestia. Bueno, en realidad no es una bestia: es más sutil, tranquila y menos dinámica. Simplemente un simple paseo con una cámara fija. La versión de OpenAI es precisa. No es emocionante, pero no le falta realismo. La versión de Luma presenta un movimiento de cámara diferente pero también se ve bien, sin las distorsiones que se ven en otros clips. El principal problema es que las imágenes que no forman parte de la imagen original aparecen borrosas y faltan de definición. En general, el vídeo está bien y con algunos ajustes podríamos obtener un resultado adecuado.


Tampoco hay defectos visuales obvios en el segundo video. La galería se ve bien. Mi mayor problema es la elección del movimiento de la cámara en la primera parte, que no es muy realista. Curiosamente, Dream Machine generó dos escenas para un mensaje, con un corte en el medio que muestra una sala diferente del museo. Es fascinante que la modelo haya decidido hacer esto. La segunda parte tiene un mejor movimiento de cámara, haciéndola más agradable a la vista.

Jogger hacia atrás


Este ejemplo es interesante porque, en la página de Sora, se muestra como uno de los problemas del modelo: el corredor corre en sentido contrario. Ninguna cinta de correr funciona así, pero en el mundo de la IA todo es posible. ¿Es esta la oportunidad de brillar de Dream Machine? El resultado de la conversión de imagen a vídeo es bastante bueno.


El corredor todavía corre hacia atrás, como en la imagen de entrada, pero el movimiento de la cámara y el comportamiento del corredor son casi perfectos. Hay algunas distorsiones menores y la perspectiva de la cámara se vuelve un poco extraña con el tiempo, pero con un poco de selección, podríamos obtener un resultado decente para nuestras producciones.


La versión generada sólo con el mensaje también es interesante. Es muy dinámico y un poco distorsionado, pero esto podría adaptarse a ciertas producciones, especialmente si se desea una estética temblorosa, parecida a un boceto. No está mal. Finalmente, el modelo de Luma se acerca a su futuro competidor.

Cachorro italiano


El último ejemplo principal en el sitio OpenAI muestra a un dálmata en una colorida ciudad italiana. El video original hecho con Sora no es perfecto. En un clip más largo, el perro comienza a actuar un poco extraño y su animación no es tan natural como en otros videos mostrados. ¿Cómo maneja esto la IA más nueva de Luma?


Nada bien. Tal vez sea porque solo tuvieron una toma (y el generador tiene una velocidad bastante limitada), pero lo que vemos es un festival de fallas técnicas e imágenes poco realistas. La textura del perro cambia a medida que avanza el vídeo, los edificios parecen hechos de plastilina y al final aparece otra abominación parecida a un perro, lo que hace que parezca más una obra de Salvador Dalí que un vídeo real. Este es definitivamente el peor ejemplo hasta ahora.


La propia creación de Dream Machine no es mejor. No siguió el mensaje y no incluyó al dálmata en absoluto. No hay ventana para que se siente el perro, los edificios parecen caricaturescos y la arquitectura en general no tiene sentido. Lo peor de todo son los ciclistas en bicicletas muy deformadas, las criaturas deformes que se adentran en el canal o se transforman en otros ciclistas sin ningún motivo. Esto está muy por debajo de las expectativas.

¿Veredicto?

Para lo que ahora está disponible para el público, la nueva IA de Luma es realmente impresionante. Traspasa los límites, generando movimientos de cámara realmente agradables y, a menudo, movimientos muy realistas de personas y objetos. Parece funcionar mejor cuando se le proporciona una imagen de referencia y produce mejores efectos que su competencia actual.


¿Pero es tan bueno como Sora? Parece lejos de serlo, al menos por ahora. Las creaciones de Sora pueden confundirse con vídeos reales, al menos a primera vista. El escaparate sugiere que Sora podría competir con los vídeos de archivo y hacer la vida más fácil a los cineastas y creadores de contenidos. Dream Machine, por otro lado, a menudo produce fallos y no siempre sigue las indicaciones con precisión.


Es otro paso adelante en las mejoras del modelo, pero aún no es lo suficientemente confiable y estable para un uso generalizado.


¿Es un verdadero rival para Sora? Aún no. Sin embargo, no hemos interactuado directamente con Sora y la presentación de OpenAI podría estar cuidadosamente seleccionada. Sora podría cometer errores similares a los del modelo de Luma. Hasta que Sora esté disponible públicamente, no podemos estar seguros.


Personalmente, me alegro de que tengamos Dream Machine. Nos acerca al generador de vídeo con IA perfecto. Es útil en algunos casos y probablemente mejorará con el tiempo. Aprecio que Luma haya lanzado esta herramienta, que nos brinda otra forma de disfrutar de la IA generativa para videoclips.


Por otro lado, espero que Sora funcione como se muestra en el showcase. Si lo hace, será un importante salto adelante. Estoy esperando ansiosamente que esté disponible públicamente para poder comparar los resultados yo mismo.