paint-brush
O PaLM-E (robô AI) do Google pode ver e entender a linguagempor@whatsai
1,860 leituras
1,860 leituras

O PaLM-E (robô AI) do Google pode ver e entender a linguagem

por Louis Bouchard1m2023/03/24
Read on Terminal Reader

Muito longo; Para ler

PaLM-E é um modelo de linguagem multimodal incorporado. É um modelo que pode interpretar e entender vários tipos de dados, incluindo imagens e textos dos modelos ViT e PaLM respectivamente, e converter essas informações em ações por meio de uma mão robótica. Saiba mais no vídeo…
featured image - O PaLM-E (robô AI) do Google pode ver e entender a linguagem
Louis Bouchard HackerNoon profile picture

Modelos recentes de IA, como ChatGPT e Midjourney, demonstraram recursos impressionantes na geração de texto e imagens.


No entanto, também existem modelos especializados em entender essas entradas, como o Vision Transformers (ViT) para imagens e o Pathways language model (PaLM) para texto. Esses modelos podem interpretar e compreender o significado de imagens e frases.


A combinação de modelos de texto e imagem resultaria em uma IA que pode entender várias formas de dados e seria capaz de compreender quase tudo.


No entanto, as capacidades de tal modelo podem parecer limitadas à primeira vista, pois só seria capaz de entender as coisas. Mas, e se esse modelo estiver integrado a um sistema robótico que pode se mover no mundo físico? É aqui que entra o PaLM-E.


O que é o modelo PaLM-E AI do Google?

A publicação mais recente do Google, PaLM-E, é um modelo de linguagem multimodal incorporado .


Isso significa que é um modelo que pode interpretar e entender vários tipos de dados, incluindo imagens e textos dos modelos ViT e PaLM, respectivamente, e converter essas informações em ações por meio de uma mão robótica.


Saiba mais no vídeo…