Los modelos recientes de IA, como ChatGPT y Midjourney, han mostrado capacidades impresionantes para generar texto e imágenes.
Sin embargo, también hay modelos que se especializan en comprender estas entradas, como Vision Transformers (ViT) para imágenes y Pathways language model (PaLM) para texto. Estos modelos pueden interpretar y comprender el significado de imágenes y oraciones.
La combinación de modelos de texto e imagen daría como resultado una IA que puede comprender varias formas de datos y podría comprender casi todo.
Sin embargo, las capacidades de dicho modelo pueden parecer limitadas a primera vista, ya que solo sería capaz de entender cosas. Pero, ¿y si este modelo se integra con un sistema robótico que puede moverse en el mundo físico? Aquí es donde entra PaLM-E.
La última publicación de Google, PaLM-E, es un modelo de lenguaje multimodal incorporado .
Esto significa que es un modelo que puede interpretar y comprender varios tipos de datos, incluidas imágenes y texto de los modelos ViT y PaLM respectivamente, y convertir esta información en acciones a través de una mano robótica.
Aprende más en el vídeo...