Aktuelle KI-Modelle wie ChatGPT und Midjourney haben beeindruckende Fähigkeiten bei der Generierung von Text und Bildern gezeigt.
Es gibt jedoch auch Modelle, die auf das Verständnis dieser Eingaben spezialisiert sind, wie zum Beispiel die Vision Transformers (ViT) für Bilder und das Pathways Language Model (PaLM) für Text. Diese Modelle können die Bedeutung von Bildern und Sätzen interpretieren und verstehen.
Die Kombination von Text- und Bildmodellen würde zu einer KI führen, die verschiedene Formen von Daten verstehen und fast alles verstehen könnte.
Allerdings scheinen die Fähigkeiten eines solchen Modells auf den ersten Blick begrenzt zu sein, da es lediglich in der Lage wäre, Dinge zu verstehen. Was aber, wenn dieses Modell in ein Robotersystem integriert wird, das sich in der physischen Welt bewegen kann? Hier kommt PaLM-E ins Spiel.
Googles neueste Veröffentlichung, PaLM-E, ist ein verkörpertes multimodales Sprachmodell .
Dies bedeutet, dass es sich um ein Modell handelt, das verschiedene Arten von Daten interpretieren und verstehen kann, darunter Bilder und Texte aus ViT- bzw. PaLM-Modellen, und diese Informationen durch eine Roboterhand in Aktionen umwandeln kann.
Erfahren Sie mehr im Video…