paint-brush
ByteDance mise gros : une sortie stratégique du cirque des médias sociaux avec la vidéo IA ?par@bigmao
Nouvelle histoire

ByteDance mise gros : une sortie stratégique du cirque des médias sociaux avec la vidéo IA ?

par susie liu7m2024/09/27
Read on Terminal Reader

Trop long; Pour lire

ByteDance a dévoilé deux modèles de poids, PixelDance et Seaweed, qui promettent de bouleverser le paysage de la génération de vidéos par l'IA. Il ne s'agit pas d'un gadget d'IA, mais d'un changement stratégique. L'avenir de ByteDance ne réside pas dans les hashtags éphémères et les revenus publicitaires, mais dans les bras solides et fiables d'une production sérieuse - un modèle centré sur l'entreprise conçu pour la croissance et l'innovation. Voici ce que vous devez savoir sur leurs derniers modèles.
featured image - ByteDance mise gros : une sortie stratégique du cirque des médias sociaux avec la vidéo IA ?
susie liu HackerNoon profile picture
0-item
1-item
2-item


Alors que vous pensiez pouvoir prendre une pause de l'IA, ByteDance se met sous les feux des projecteurs , mais pas avec la saga sans fin de TikTok. Lors d'une vitrine d'innovation en IA à Shenzhen, le moteur Volcano de ByteDance a dévoilé deux modèles de poids, PixelDance et Seaweed , avec la promesse de bouleverser le paysage de la génération de vidéos . PixelDance se concentre sur la génération de vidéos dynamiques et de haute qualité à partir d'invites textuelles et visuelles. Considérez-le comme le génie exaucant les vœux des vidéastes. Seaweed plonge dans les domaines de l'animation 3D et du rendu artistique, s'adressant à ceux qui veulent faire éclater leurs visuels comme des confettis lors d'une fête.


Ces modèles intègrent une technologie de pointe, car leur véritable public cible n'est pas votre voisin de la génération Z, proche des influenceurs, mais plutôt des créateurs et des maisons de production sérieux.


Il s'agit d'une mise à jour intéressante de Bytedance. Lisez la suite pour savoir pourquoi.


Ce qu'ils sont Pas Je te le dis


ByteDance courtise l'IA depuis longtemps. À l'époque où ils ont commencé à développer des recommandations algorithmiques, la plupart d'entre nous associions l'abréviation « IA » à « Adobe Illustrator ». On pourrait penser qu'ils se concentrent sur l'IA pour les opérations orientées client, mais c'est ce qu'ils veulent vous faire croire.


Ils parient que l’IA les fera passer d’une plateforme jetable (susceptible de poursuites judiciaires, d’examen des données et de beaucoup de paperasserie) à un outil indispensable .


L'avenir de ByteDance ne réside pas dans les hashtags éphémères et les revenus publicitaires, mais dans les outils solides et fiables d'une production sérieuse, un modèle centré sur l'entreprise conçu pour la croissance et l'innovation. Grâce à un changement stratégique d'orientation vers les applications professionnelles, ByteDance ne se contentera pas de survivre à la tempête ; elle prospérera en redéfinissant son rôle dans l'écosystème technologique .


PixelDance : de l'esprit à la magie


PixelDance promet d'être cette agence capable de prendre vos phrases à moitié formées et votre babillage semi-cohérent et de créer exactement ce que vous aviez en tête . Ses principales fonctionnalités sont les suivantes :


Saisie combinée de texte et d'image

  • Contrairement aux modèles de génération de vidéos traditionnels, PixelDance permet aux utilisateurs de fournir à la fois du texte et des images (en particulier les première et dernière images). Cela signifie que vous obtenez une vidéo qui commence et se termine exactement comme vous l'aviez imaginé.
  • Résumé pour les profanes : C'est un réalisateur qui écoute réellement vos idées et leur donne vie. Et qui ne répond pas.

Architecture du modèle de diffusion latente

  • Ce bébé fonctionne sur un modèle de diffusion latente, utilisant des autoencodeurs variationnels (VAE) pré-entraînés et un encodeur de texte . Les entrées d'image sont alimentées via un VAE, mélangées à des variables latentes vidéo pour assurer un mouvement et une cohérence fluides.
  • Résumé pour le profane : C'est un mixeur de haute technologie qui prépare vos rêves vidéo sans aucun grumeau.

Segments vidéo continus

  • PixelDance permet de générer des clips vidéo continus tout en conservant une cohérence temporelle . Il utilise la dernière image d'un segment comme première image du suivant.
  • Résumé pour le profane : Dites adieu à ces coupes gênantes.

Montage vidéo sans plan de montage

  • Cette fonctionnalité permet aux utilisateurs de modifier des vidéos sans avoir besoin de formation spécifique. Vous pouvez guider la création de la vidéo en modifiant uniquement les première et dernière images.
  • Résumé pour le profane : Vous pouvez rééditer un film à succès dans son intégralité en ajustant simplement les scènes d'ouverture et de clôture : de la pure magie cinématographique.

Prise en charge d'un large éventail de styles

  • Du noir et blanc à l'animation 3D et aux styles de peinture traditionnelle chinoise, PixelDance prend en charge une vaste gamme d'esthétiques, y compris des rapports hauteur/largeur tels que 1:1 et 3:4.
  • Résumé pour les profanes : Ce n'est pas Anna Wintour, ni un quelconque snob du style. Cette chose n'a aucune préférence artistique, juste un arsenal d'outils.

Ensembles de données de formation

  • PixelDance a été formé sur WebVid-10M , un ensemble de données d'environ 10 millions de vidéos courtes (durée moyenne : 18 secondes) avec une résolution de 336 x 596. De plus, ils ont utilisé 500 000 clips vidéo sans filigrane pour garantir une sortie de haute qualité.
  • Résumé pour les profanes : Il a vu plus de vidéos que vous n'en verrez jamais. C'est l'encyclopédie des références cinématographiques. Faites confiance à son professionnalisme.


Algues : l'alchimiste de l'édition


Seaweed est la réponse de ByteDance aux problèmes d'édition qui affligent les créateurs. Conçu pour compléter PixelDance , Seaweed utilise l'IA pour rationaliser le processus d'édition avec des fonctionnalités impressionnantes :


Rendu 3D

  • Seaweed utilise des techniques de rendu avancées pour générer des visuels qui ne sont pas seulement plats mais qui ont de la profondeur et du réalisme, ce qui les rend adaptés aux animations de haute qualité et aux expressions artistiques.
  • Résumé pour le profane : Vous avez le studio d'animation Pixar à portée de main.


Détection de coupure intelligente

  • À l'aide d'algorithmes sophistiqués, Seaweed identifie les moments clés de vos séquences , permettant des coupes rapides sans perdre le récit.
  • Résumé pour les profanes : un monteur personnel qui peut identifier les moments précieux de vos images brutes. Rapide. Vraiment rapide.


Étalonnage des couleurs et effets améliorés

  • Cet outil automatise la correction des couleurs et applique des effets stylistiques pour garantir que votre vidéo soit soignée sans ajustements manuels fastidieux.
  • Résumé pour les profanes : Vous pouvez obtenir des couleurs et des styles que même Baz Luhrmann approuverait. Même si vous êtes daltonien.


Interface conviviale avec assistance IA

  • Seaweed combine des capacités d'IA avancées avec une interface simple, la rendant accessible même à ceux qui ne sont pas férus de technologie.
  • Résumé pour le profane : C'est comme acheter une Ferrari mais avec un permis d'apprenti conducteur : des trajets en douceur pour tout le monde.


Réflexions finales : construire pour l’élite technologique


PixelDance et Seaweed ne sont pas de simples outils ; ils représentent le ticket d'entrée de ByteDance vers un nouveau terrain de jeu plus sophistiqué où les enjeux sont élevés et la concurrence féroce. Alors que la plupart se contentent de répondre aux besoins des créateurs occasionnels à la recherche de modèles et de contenu « suffisamment bon » pour le diaporama de mariage de votre cousin, ByteDance vise les stars.


ByteDance ne souhaite pas devenir le Canva de la vidéo IA. L'entreprise vise plutôt un modèle hybride Pixar-ILM piloté par l'IA. Cela signifie qu'elle donne la priorité à la qualité de ses utilisateurs plutôt qu'à la quantité , en ciblant les cinéastes, les animateurs, les agences de marketing et les entreprises qui ont besoin de vidéos très soignées et sophistiquées qui se démarquent sur un marché de contenu saturé.


C'est intelligent. Vraiment intelligent. Mais pas sans risques.


Stratégie de prix agressive : une arme à double tranchant ?


Leur stratégie de tarification agressive, à 0,002 $ par jeton (contre 0,03 $ pour OpenAI) , est conçue pour perturber le marché. C'est un appel de sirène pour les petites et moyennes entreprises (PME) et les créateurs indépendants, qui peuvent désormais accéder à des outils de pointe qu'ils considéraient autrefois comme hors de portée.


Mais le faible coût par token est un pari risqué. ByteDance peut se permettre de jouer ce jeu dès maintenant, mais maintenir ces prix sur le long terme pourrait s’avérer difficile , surtout si le coût de l’acquisition de données et de l’infrastructure augmente de manière disproportionnée. Si le prix initial peut attirer les clients, le maintenir sans sacrifier la qualité ou l’innovation pourrait s’avérer être un exercice d’équilibriste.


Concurrence d'Unity et d'Unreal Engine


ByteDance s'engage sur un terrain déjà dominé par des géants comme Unity et Unreal Engine, pionniers dans les domaines du rendu 3D, de l'animation et même de la réalisation de films en temps réel, avec de larges communautés fidèles et des ressources étendues. Unity a fait des progrès dans la production virtuelle et la narration en temps réel, tandis que les récentes mises à jour d'Unreal Engine ont fait tourner les têtes avec leurs capacités de rendu hyperréalistes. Tous deux intègrent désormais des fonctionnalités d'IA pour améliorer leurs offres, ce qui en fait des concurrents directs des capacités de rendu 3D et de vidéo interactive de Seaweed.


Les écosystèmes établis d'Unity et d'Unreal Engine leur confèrent également un avantage crucial : la base d'utilisateurs et le soutien de la communauté . Le défi de ByteDance sera de convaincre les créateurs que PixelDance et Seaweed offrent quelque chose que ces plateformes ne peuvent pas offrir, qu'il s'agisse d'une meilleure intégration avec les outils existants, de flux de travail plus rapides ou d'une qualité de sortie supérieure. Mais la supériorité technique peut-elle suffire à convaincre les utilisateurs qu'Unity et Unreal cultivent depuis des années ?


Pièges potentiels : ambition élevée, enjeux élevés


Les ambitions ambitieuses de ByteDance pour PixelDance et Seaweed s’accompagnent d’une série de risques étincelants. Placer la barre très haut en promettant des outils de qualité professionnelle pour rivaliser avec les titans de l’industrie est un geste audacieux, mais si ces plateformes ne parviennent pas à tenir leurs promesses , elles risquent de faire face aux foudres des professionnels qu’elles cherchent à séduire. Ajoutez à cela un contrôle réglementaire – car qui n’aime pas un bon audit gouvernemental quand on joue avec l’IA ? – et vous obtenez une recette pour des tensions, en particulier avec les préoccupations en matière de confidentialité des données qui se profilent à l’horizon et TikTok comme progéniture. Et même si cibler les professionnels est un pari judicieux, Peter Thiel se demanderait probablement : y a-t-il de la place pour construire un monopole ici ?


Vue d’ensemble : viser les étoiles, mais parviendront-ils à atterrir ?


Alors que PixelDance et Seaweed se préparent à un lancement plus large, ByteDance fait une déclaration audacieuse : ils ne se contentent pas d'être un simple géant des médias sociaux . Ils visent le sommet de la création de contenu numérique , et leur concentration sur les créateurs de haute qualité plutôt que sur le volume est une décision courageuse, en particulier dans un monde où chaque plate-forme s'efforce d'être aussi accessible que possible.


Pourront-ils remodeler le monde de la vidéo générée par l'IA ET se rapprocher du trône de fer de la technologie ? Ou s'agira-t-il simplement d'une autre expérience ambitieuse dans les annales de l'histoire de la technologie ?


C'est un pari ambitieux, et comme le sait tout passionné de technologie, les objectifs ne sont pas toujours atteints avec brio. Mais une chose est sûre : ils rendent le paysage de la génération vidéo beaucoup plus intéressant.


Alors, préparez votre pop-corn. Ce spectacle ne fait que commencer.


Remarque : les deux plateformes sont actuellement en phase de test sur invitation uniquement (vous pouvez essayer de postuler via Volcano Engine), avec un accès plus large prévu prochainement, bien que la date exacte soit aussi insaisissable que votre signal Wi-Fi pendant un appel Zoom).