paint-brush
Sora d'OpenAI est-il déjà en difficulté ?par@lukaszwronski
1,879 lectures
1,879 lectures

Sora d'OpenAI est-il déjà en difficulté ?

par Lukasz Wronski7m2024/06/17
Read on Terminal Reader

Trop long; Pour lire

Luma Dream Machine est la dernière sensation dans le monde de l'IA générative. C'est le meilleur outil pour générer des vidéos à partir d'images, battant des concurrents comme Pika et Runway ML. Mais comment se compare-t-il au mystérieux Sora ? Puisque nous ne pouvons pas utiliser Sora, nous comparerons les démos publiques d'OpenAI à ce que Luma Dream machine peut faire.
featured image - Sora d'OpenAI est-il déjà en difficulté ?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

Avez-vous entendu parler de la dernière sensation dans le monde de l'IA générative, la Luma Dream Machine ? On l'appelle le plus grand rival d'OpenAI's Sora. Mais est-ce vraiment si bon ?


Les comparer est délicat car Dream Machine est accessible à tous, contrairement à Sora. Mais voyons ce que nous pouvons découvrir. Difficile de le nier pour le moment, Dream Machine est en tête car nous pouvons réellement l'utiliser. C'est le meilleur outil pour générer des vidéos à partir d'images, battant des concurrents comme Pika et Runway ML. Mais comment se compare-t-il au mystérieux Sora ?

Puisque nous ne pouvons pas utiliser Sora, nous comparerons les démos publiques d'OpenAI à ce que Luma Dream Machine peut faire. Voici le plan : nous prendrons la première image des vidéos de démonstration d'OpenAI et utiliserons la même invite avec Dream Machine de Luma. Cela nous montrera à quel point Dream Machine peut copier la même physique, le même mouvement et le même espace que Sora. Même si les démos d'OpenAI sont sélectionnées, nous pouvons toujours comparer les détails et voir les performances des deux modèles.


Ci-dessous, j'ai rassemblé quelques comparaisons vidéo. Chaque ensemble contient trois exemples. La première vidéo est issue de la démo d'OpenAI sur le site Web de Sora. La seconde est réalisée avec la fonction image-vidéo de Dream Machine, en utilisant la même invite et la première image de la démo de Sora comme guide. La troisième montre comment l'outil de Luma fonctionne avec uniquement l'invite. Ceci est intéressant car Sora et Dream Machine utilisent tous deux la conversion texte-vidéo, ce qui nous permet de comparer leur créativité et leur capacité à suivre l'invite.


Alors, sans plus tarder, regardons les exemples et voyons quel outil arrive en tête.

Promenade à Tokyo


Comparons la démo d'OpenAI avec la Luma Dream Machine. Dans la première comparaison, Dream Machine montre des mouvements de caméra impressionnants et les actions de la personne principale sont fluides et naturelles. Cependant, il y a des problèmes avec des artefacts artificiels et des apparences incohérentes des objets et des personnes tout au long du clip. Contrairement à la vidéo d'OpenAI, la foule en arrière-plan semble fondre et changer de forme au fur et à mesure que la vidéo progresse.


Le visage du personnage principal change également de manière anormale, ce qui donne à la vidéo un aspect manifestement faux, un problème que Sora n'a pas.


Dans l'exemple texte-vidéo, la vidéo de Dream Machine n'est pas mauvaise, mais le morphing non naturel des objets est perceptible. Par exemple, un parapluie apparaît de nulle part dans la main d’un piéton, indiquant clairement la génération d’IA. Cela n’en fait pas une concurrence pour les clips libres de droits. Une chose que les générations de Sora peuvent probablement être.


Cependant, Dream Machine s'en tient bien à l'invite : veste noire, robe rouge, rouge à lèvres, lunettes de soleil, rue réfléchissante, piétons et néons sont tous présents. Alors bravo d’avoir suivi les détails !

Ruée vers l'or


Lorsque l’on compare le résultat image-vidéo de Luma à celui d’OpenAI, ce n’est pas terrible. Cependant, le mouvement de la caméra n'est pas aussi fluide que dans la vidéo de Tokyo, s'arrêtant brusquement et rendant la scène dure. Le pire, c'est le mouvement du personnage à la fin du clip, qui semble peu naturel et aléatoire. De plus, le réalisme des bâtiments de gauche se dégrade à chaque image, un problème que l'on ne retrouve pas dans l'exemple de Sora.


Semblable au clip précédent, il y a un manque de stabilité et de cohérence, avec trop d'artefacts. Sora excelle également à donner au clip un aspect vintage avec une faible fréquence d'images et une qualité globale à l'ancienne, ce qui suggère qu'il peut styliser sa sortie en fonction de l'invite, ce que Dream Machine n'a pas réalisé ici.


Dans l'exemple de texte en vidéo avec une invite courte et ouverte, le modèle de Luma a choisi une scène différente de l'histoire de la ruée vers l'or. Cela semble plus en vogue avec l’époque, en utilisant les bonnes couleurs et l’éclairage. Cependant, l'effet de morphing et le mouvement artificiel gâchent l'ensemble du clip, le rendant inutilisable dans les projets vidéo.

Un SUV dans la poussière


Cette vidéo est ma préférée sur le site Web d'OpenAI. La voiture se déplace très naturellement, avec un excellent éclairage, des ombres et une dynamique. Il est impossible de la distinguer d'une vraie vidéo, ce qui la rend parfaite pour les créateurs de contenu. En revanche, le mouvement de la caméra de Dream Machine est correct, mais les objets sont écrasés et mutilés de manière anormale. Dans la deuxième partie du clip, la perspective devient fortement déformée, ressemblant clairement à une génération d'IA.


Pour l'exemple du texte vers la vidéo, le résultat est en fait plutôt sympa, l'un des meilleurs que j'ai réussi à obtenir du produit Luma. C'est moins dynamique que le premier mais ça a l'air assez naturel. Cependant, il souffre d’un problème différent. L'invite était longue, spécifiant que le SUV devait être vu de derrière avec de la poussière s'échappant des pneus. Dream Machine l'a interprété différemment.


Cela met en évidence un aspect clé des générateurs de contenu IA : sans interprétation rapide et précise, nous pouvons perdre des heures à générer des variations qui ne correspondent pas à notre vision ou à nos besoins.

Musée


L’exemple du Musée est un autre type de bête. Eh bien, ce n’est pas vraiment une bête – c’est plus subtil, calme et moins dynamique. Juste une simple promenade avec un appareil photo stable. La version d'OpenAI est exacte. Ce n'est pas passionnant, mais cela ne manque pas de réalisme. La version de Luma présente un mouvement de caméra différent mais est également belle, sans les distorsions observées dans d'autres clips. Le principal problème est que les images qui ne font pas partie de l’image originale apparaissent floues et manquent de définition. Dans l’ensemble, la vidéo est bonne et avec quelques ajustements, nous pourrions obtenir un résultat correct.


Il n’y a pas non plus de défauts visuels évidents dans la deuxième vidéo. La galerie a l'air bien. Mon plus gros problème est le choix du mouvement de caméra dans la première partie, qui n'est pas très réaliste. Fait intéressant, Dream Machine a généré deux scènes pour une seule invite, avec une coupe au milieu montrant une autre pièce du musée. C'est fascinant que le modèle ait décidé de faire cela. La deuxième partie présente un meilleur mouvement de caméra, ce qui la rend plus agréable à regarder.

Jogger en arrière


Cet exemple est intéressant car, sur la page de Sora, il est présenté comme un des problèmes du modèle : le joggeur court dans le mauvais sens. Aucun tapis roulant ne fonctionne ainsi, mais dans le monde de l’IA, tout est possible. Est-ce une chance pour Dream Machine de briller ? Le résultat image-vidéo est en fait plutôt bon.


Le jogger continue de reculer, comme dans l'image d'entrée, mais le mouvement de la caméra et le comportement du jogger sont presque parfaits. Il y a quelques distorsions mineures et la perspective de la caméra devient un peu bizarre avec le temps, mais avec un peu de sélection, nous pourrions obtenir un résultat décent pour nos productions.


La version générée avec uniquement l'invite est également intéressante. C'est très dynamique et un peu déformé, mais cela peut convenir à certaines productions, surtout si une esthétique tremblante et semblable à un croquis est souhaitée. Pas mal du tout. Enfin, le modèle de Luma se rapproche de son futur concurrent.

Chiot italien


Le dernier exemple principal du site OpenAI présente un Dalmatien dans une ville italienne colorée. La vidéo originale réalisée avec Sora n'est pas parfaite. Dans un clip plus long, le chien commence à se comporter un peu bizarrement et son animation n'est pas aussi naturelle que dans les autres vidéos présentées. Comment la nouvelle IA de Luma gère-t-elle cela ?


Pas bien du tout. C'est peut-être parce qu'ils n'ont eu qu'une seule prise (et que le générateur est assez limité), mais ce que nous voyons est un festival de problèmes et d'images irréalistes. La texture du chien change au fur et à mesure que la vidéo progresse, les bâtiments semblent faits de pâte à modeler et une autre abomination ressemblant à un chien apparaît à la fin, ce qui fait ressembler davantage à l'œuvre de Salvador Dali qu'à une vraie vidéo. C’est certainement le pire exemple jusqu’à présent.


La propre création de Dream Machine n'est pas meilleure. Il n'a pas suivi l'invite, n'incluant pas du tout le Dalmatien. Il n'y a pas de fenêtre pour que le chien puisse s'asseoir, les bâtiments ont l'air caricaturaux et l'architecture globale est absurde. Le pire de tout, ce sont les cyclistes sur des vélos très déformés, les créatures déformées qui se dirigent vers le canal ou qui se transforment en d'autres cyclistes sans aucune raison. C’est bien en deçà des attentes.

Verdict?

Pour ce qui est actuellement disponible au public, la nouvelle IA de Luma est vraiment impressionnante. Il repousse les limites, générant des mouvements de caméra vraiment agréables et des mouvements souvent très réalistes de personnes et d'objets. Il semble fonctionner mieux lorsqu'il est fourni avec une image de référence, produisant des effets meilleurs que ses concurrents actuels.


Mais est-il aussi bon que Sora ? Cela semble loin d’être le cas, du moins pour le moment. Les créations de Sora peuvent être confondues avec de vraies vidéos, du moins à première vue. La vitrine suggère que Sora pourrait rivaliser avec les vidéos d'archives et faciliter la vie des cinéastes et des créateurs de contenu. Dream Machine, en revanche, produit souvent des problèmes et ne suit pas toujours les instructions avec précision.


Il s'agit d'un autre pas en avant dans l'amélioration du modèle, mais il n'est toujours pas suffisamment fiable et stable pour une utilisation généralisée.


Est-ce un véritable rival pour Sora ? Pas encore. Cependant, nous n'avons pas interagi directement avec Sora et la vitrine d'OpenAI pourrait être soigneusement organisée. Sora pourrait potentiellement commettre des erreurs similaires à celles du modèle de Luma. Tant que Sora n'est pas accessible au public, nous ne pouvons en être certains.


Personnellement, je suis content que nous ayons Dream Machine. Cela nous rapproche du générateur vidéo IA parfait. C'est utile dans certains cas et s'améliorera probablement avec le temps. J'apprécie que Luma ait publié cet outil, nous offrant une autre façon de profiter de l'IA générative pour les clips vidéo.


D'un autre côté, j'espère que Sora fonctionnera comme indiqué dans la vitrine. Si tel est le cas, ce sera un grand pas en avant. J'attends avec impatience qu'il soit rendu public afin de pouvoir comparer les résultats moi-même.