Nous avons été témoins des capacités remarquables des grands modèles de langage (LLM), mais il y a eu une lacune, une pièce manquante dans leur compréhension du monde qui nous entoure. Ils ont excellé avec le texte, le code et les images, mais ils ont eu du mal à s'engager véritablement dans notre réalité. C'est-à-dire jusqu'à maintenant. Voici un bond en avant révolutionnaire dans le paysage de l'IA : 3D-LLM.  3D-LLM est un nouveau modèle qui comble le fossé entre le langage et le domaine 3D que nous habitons. Bien qu'il ne couvre pas l'intégralité de notre monde, c'est une avancée monumentale dans la compréhension des dimensions et du texte cruciaux qui façonnent nos vies. Comme vous le découvrirez dans la vidéo, 3D-LLM non seulement perçoit le monde mais interagit également avec lui. Vous pouvez poser des questions sur l'environnement, rechercher des objets ou naviguer dans des espaces, et être témoin de son raisonnement de bon sens, qui rappelle les exploits impressionnants que nous avons vécus avec ChatGPT.  Curieusement, le monde qu'il voit n'est peut-être pas conventionnellement beau, mais sa compréhension est profondément enracinée dans les nuages de points et le langage. Les nuages de points, fondement de la représentation des données 3D, encodent les coordonnées spatiales des objets et des environnements, permettant à l'IA d'interagir avec le monde réel de manière tangible. Pensez à leur rôle dans la conduite autonome, la robotique et la réalité augmentée - 3D-LLM puise dans ce domaine.  Curieusement, vous pourriez vous demander comment un tel modèle a été formé pour comprendre les données et le langage en 3 dimensions. Le processus était innovant et complexe, les auteurs construisant un ensemble de données texte 3D unique. Ils ont exploité les prouesses de ChatGPT pour collecter ces données via trois méthodes distinctes que vous découvrirez, créant un référentiel complet de tâches et d'exemples pour chaque scène.  À partir de ce riche ensemble de données, les auteurs ont forgé un modèle d'IA capable de traiter à la fois du texte et des nuages de points 3D. Le modèle prend la scène, extrait des caractéristiques cruciales à travers diverses perspectives et la reconstruit sous une forme qui résonne avec la compréhension du modèle.  Le résultat? La naissance du premier 3D-LLM, un modèle qui voit et comprend vraiment notre monde, offrant un aperçu intrigant de l'évolution de l'IA. La vidéo offre un aperçu du voyage, mais je vous encourage à explorer le document pour une plongée plus profonde dans les exploits d'ingénierie impressionnants derrière cette innovation. Le lien est fourni dans les références ci-dessous.  Profite du spectacle!  Regardez la vidéo pour en apprendre plus:   https://youtu.be/ADlXEUqIt-8?embedable=true   Les références:  ►Lire l'article complet :  https://www.louisbouchard.ai/3d-llm/  ►Page du projet avec démo vidéo :   ►Code :  https://vis-www.cs.umass.edu/3dllm/ https://github.com/UMass-Foundation-Model/3D-LLM  ►Article : Hong et al., 2023 : 3D-LLM,  https://arxiv.org/pdf/2307.12981.pdf  ►Twitter :  https://twitter.com/Whats_AI  ►Ma Newsletter (Une nouvelle application d'IA expliquée chaque semaine à vos mails !) :  https://www.louisbouchard.ai/newsletter/  ►Soutenez-moi sur Patreon :  https://www.patreon.com/whatsai  ►Rejoignez notre Discord IA :  https://discord.gg/learnaitogether

The writer is smart, but don't just like, take their word for it. #DoYourOwnResearch before making any investment decisions or decisions regarding your health or security. (Do not regard any of this content as professional investment advice, or health advice)

Watch more on YouTube: https://www.youtube.com/c/WhatsAI

I explain Artificial Intelligence terms and news to non-experts.

2021 - HackerNoon Contributor of the Year - FACEBOOK

2022 - Best Data Science Newsletter

2022 - HackerNoon Contributor of the Year - Artificial Intelligence

2022 - HackerNoon Contributor of the Year - Computer Vision

2022 - HackerNoon Contributor of the Year - Data Science

2022 - HackerNoon Contributor of the Year - Google

2022 - HackerNoon Contributor of the Year - Innovation

2022 - HackerNoon Contributor of the Year - Machine Learning

2022 - HackerNoon Contributor of the Year - Natural Language Processing

2022 - Top Tech Youtuber

2021 - HackerNoon Contributor of the Year - DEEP-LEARNING

Nominated for 2022 - Best Data Science Newsletter

Nominated for 2022 - HackerNoon Contributor of the Year - Artificial Intelligence

Nominated for 2022 - Top Tech Youtuber

Nominated for 2022 - HackerNoon Contributor of the Year - Innovation

Nominated for 2022 - HackerNoon Contributor of the Year - Data Science

Nominated for 2022 - HackerNoon Contributor of the Year - Natural Language Processing

Nominated for 2022 - HackerNoon Contributor of the Year - Computer Vision

Nominated for 2022 - HackerNoon Contributor of the Year - Google

Nominated for 2022 - HackerNoon Contributor of the Year - Machine Learning

Cet audio est produit dans la langue originale de l'histoire !

Trop long; Pour lire

Un grand pas pour l'IA : 3D-LLM libère des modèles de langage dans le monde 3D

Un grand pas pour l'IA : 3D-LLM libère des modèles de langage dans le monde 3D

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps