Modelos recentes de IA, como ChatGPT e Midjourney, demonstraram recursos impressionantes na geração de texto e imagens.
No entanto, também existem modelos especializados em entender essas entradas, como o Vision Transformers (ViT) para imagens e o Pathways language model (PaLM) para texto. Esses modelos podem interpretar e compreender o significado de imagens e frases.
A combinação de modelos de texto e imagem resultaria em uma IA que pode entender várias formas de dados e seria capaz de compreender quase tudo.
No entanto, as capacidades de tal modelo podem parecer limitadas à primeira vista, pois só seria capaz de entender as coisas. Mas, e se esse modelo estiver integrado a um sistema robótico que pode se mover no mundo físico? É aqui que entra o PaLM-E.
A publicação mais recente do Google, PaLM-E, é um modelo de linguagem multimodal incorporado .
Isso significa que é um modelo que pode interpretar e entender vários tipos de dados, incluindo imagens e textos dos modelos ViT e PaLM, respectivamente, e converter essas informações em ações por meio de uma mão robótica.
Saiba mais no vídeo…