paint-brush
Googles PaLM-E (KI-Roboter) kann Sprache sehen und verstehenvon@whatsai
1,860 Lesungen
1,860 Lesungen

Googles PaLM-E (KI-Roboter) kann Sprache sehen und verstehen

von Louis Bouchard1m2023/03/24
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

PaLM-E ist ein verkörpertes multimodales Sprachmodell. Es handelt sich um ein Modell, das verschiedene Arten von Daten interpretieren und verstehen kann, darunter Bilder und Text aus ViT- bzw. PaLM-Modellen, und diese Informationen durch eine Roboterhand in Aktionen umwandeln kann. Erfahren Sie mehr im Video…
featured image - Googles PaLM-E (KI-Roboter) kann Sprache sehen und verstehen
Louis Bouchard HackerNoon profile picture

Aktuelle KI-Modelle wie ChatGPT und Midjourney haben beeindruckende Fähigkeiten bei der Generierung von Text und Bildern gezeigt.


Es gibt jedoch auch Modelle, die auf das Verständnis dieser Eingaben spezialisiert sind, wie zum Beispiel die Vision Transformers (ViT) für Bilder und das Pathways Language Model (PaLM) für Text. Diese Modelle können die Bedeutung von Bildern und Sätzen interpretieren und verstehen.


Die Kombination von Text- und Bildmodellen würde zu einer KI führen, die verschiedene Formen von Daten verstehen und fast alles verstehen könnte.


Allerdings scheinen die Fähigkeiten eines solchen Modells auf den ersten Blick begrenzt zu sein, da es lediglich in der Lage wäre, Dinge zu verstehen. Was aber, wenn dieses Modell in ein Robotersystem integriert wird, das sich in der physischen Welt bewegen kann? Hier kommt PaLM-E ins Spiel.


Was ist das PaLM-E-KI-Modell von Google?

Googles neueste Veröffentlichung, PaLM-E, ist ein verkörpertes multimodales Sprachmodell .


Dies bedeutet, dass es sich um ein Modell handelt, das verschiedene Arten von Daten interpretieren und verstehen kann, darunter Bilder und Texte aus ViT- bzw. PaLM-Modellen, und diese Informationen durch eine Roboterhand in Aktionen umwandeln kann.


Erfahren Sie mehr im Video…