paint-brush
Ein großer Schritt für die KI: 3D-LLM entfesselt Sprachmodelle in die 3D-Weltvon@whatsai
3,156 Lesungen
3,156 Lesungen

Ein großer Schritt für die KI: 3D-LLM entfesselt Sprachmodelle in die 3D-Welt

von Louis Bouchard2m2023/08/11
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

3D-LLM ist ein neuartiges Modell, das die Lücke zwischen Sprache und dem 3D-Bereich, in dem wir leben, schließt. Es nimmt die Welt nicht nur wahr, sondern interagiert auch mit ihr. Die Welt, die es sieht, ist vielleicht nicht konventionell schön, aber sein Verständnis ist tief in Punktwolken und Sprache verwurzelt.
featured image - Ein großer Schritt für die KI: 3D-LLM entfesselt Sprachmodelle in die 3D-Welt
Louis Bouchard HackerNoon profile picture
0-item

Wir haben die bemerkenswerten Fähigkeiten großer Sprachmodelle (LLMs) gesehen, aber es gab eine Lücke – ein fehlendes Stück in ihrem Verständnis der Welt um uns herum. Sie haben sich mit Text, Code und Bildern hervorgetan, doch es fiel ihnen schwer, sich wirklich mit unserer Realität auseinanderzusetzen. Das heißt, bis jetzt. Hier ist ein bahnbrechender Fortschritt in der KI-Landschaft: 3D-LLM.


3D-LLM ist ein neuartiges Modell, das die Lücke zwischen Sprache und dem 3D-Bereich, in dem wir leben, schließt. Obwohl es nicht die gesamte Welt abdeckt, ist es ein monumentaler Schritt beim Verständnis der entscheidenden Dimensionen und Texte, die unser Leben prägen. Wie Sie im Video entdecken werden, nimmt 3D-LLM die Welt nicht nur wahr, sondern interagiert auch mit ihr. Sie können Fragen zur Umgebung stellen, Objekte suchen oder durch Räume navigieren und Zeuge der vernünftigen Argumentation werden – eine Erinnerung an die beeindruckenden Leistungen, die wir mit ChatGPT erlebt haben.


Interessanterweise ist die Welt, die es sieht, vielleicht nicht konventionell schön, aber sein Verständnis ist tief in Punktwolken und Sprache verwurzelt. Punktwolken, das Fundament der 3D-Datendarstellung, kodieren räumliche Koordinaten von Objekten und Umgebungen und ermöglichen der KI eine greifbare Interaktion mit der realen Welt. Denken Sie an ihre Rolle beim autonomen Fahren, der Robotik und der erweiterten Realität – 3D-LLM erschließt diesen Bereich.


Interessanterweise fragen Sie sich vielleicht, wie ein solches Modell darauf trainiert wurde, dreidimensionale Daten und Sprache zu ergründen. Der Prozess war innovativ und kompliziert, wobei die Autoren einen einzigartigen 3D-Textdatensatz erstellten. Sie nutzten die Fähigkeiten von ChatGPT, um diese Daten mithilfe von drei verschiedenen Methoden zu sammeln, die Sie kennenlernen werden, und erstellten so ein umfassendes Repository mit Aufgaben und Beispielen für jede Szene.


Aus diesem umfangreichen Datensatz erstellten die Autoren ein KI-Modell, das sowohl Text als auch 3D-Punktwolken verarbeiten kann. Das Modell nimmt die Szene auf, extrahiert entscheidende Merkmale aus verschiedenen Perspektiven und rekonstruiert sie in einer Form, die mit dem Verständnis des Modells in Einklang steht.


Das Ergebnis? Die Geburt des ersten 3D-LLM, eines Modells, das unsere Welt wirklich sieht und begreift – und einen faszinierenden Einblick in die Entwicklung der KI bietet. Das Video bietet eine Momentaufnahme der Reise, aber ich empfehle Ihnen, das Papier zu erkunden, um tiefer in die beeindruckenden technischen Leistungen hinter dieser Innovation einzutauchen. Der Link ist in den Referenzen unten angegeben.

Geniessen Sie die Vorstellung!

Sehen Sie sich das Video an, um mehr zu erfahren:

Verweise:

►Lesen Sie den vollständigen Artikel: https://www.louisbouchard.ai/3d-llm/

►Projektseite mit Videodemo: https://vis-www.cs.umass.edu/3dllm/ ►Code: https://github.com/UMass-Foundation-Model/3D-LLM

►Artikel: Hong et al., 2023: 3D-LLM, https://arxiv.org/pdf/2307.12981.pdf

►Twitter: https://twitter.com/Whats_AI

►Mein Newsletter (Eine neue KI-Anwendung, die wöchentlich in Ihren E-Mails erklärt wird!): https://www.louisbouchard.ai/newsletter/

►Unterstützen Sie mich auf Patreon: https://www.patreon.com/whatsai

►Treten Sie unserem KI-Discord bei: https://discord.gg/learnaitogether