Modelos recentes de IA, como e demonstraram recursos impressionantes na geração de texto e imagens. ChatGPT Midjourney, No entanto, também existem modelos especializados em entender essas entradas, como o Vision Transformers (ViT) para imagens e o Pathways language model (PaLM) para texto. Esses modelos podem interpretar e compreender o significado de imagens e frases. A combinação de modelos de texto e imagem resultaria em uma IA que pode entender várias formas de dados e seria capaz de compreender quase tudo. No entanto, as capacidades de tal modelo podem parecer limitadas à primeira vista, pois só seria capaz de entender as coisas. Mas, e se esse modelo estiver integrado a um sistema robótico que pode se mover no mundo físico? É aqui que entra o PaLM-E. O que é o modelo PaLM-E AI do Google? A publicação mais recente do Google, PaLM-E, é um . modelo de linguagem multimodal incorporado Isso significa que é um modelo que pode interpretar e entender vários tipos de dados, incluindo imagens e textos dos modelos ViT e PaLM, respectivamente, e converter essas informações em ações por meio de uma mão robótica. Saiba mais no vídeo… https://youtu.be/1RF06BL7VAc?embedable=true&transcript=true