paint-brush
Google의 PaLM-E(AI 로봇)는 언어를 보고 이해할 수 있습니다.~에 의해@whatsai
1,860 판독값
1,860 판독값

Google의 PaLM-E(AI 로봇)는 언어를 보고 이해할 수 있습니다.

~에 의해 Louis Bouchard1m2023/03/24
Read on Terminal Reader
Read this story w/o Javascript

너무 오래; 읽다

PaLM-E는 구현된 다중 모드 언어 모델입니다. ViT 모델과 PaLM 모델 각각의 이미지와 텍스트 등 다양한 형태의 데이터를 해석하고 이해하고, 이 정보를 로봇 손을 통해 동작으로 변환할 수 있는 모델이다. 영상에서 자세히 알아보세요…
featured image - Google의 PaLM-E(AI 로봇)는 언어를 보고 이해할 수 있습니다.
Louis Bouchard HackerNoon profile picture

ChatGPTMidjourney 와 같은 최신 AI 모델은 텍스트 및 이미지 생성에 있어 인상적인 기능을 선보였습니다.


그러나 이미지용 ViT(Vision Transformers), 텍스트용 PaLM(Pathways Language Model)과 같이 이러한 입력을 전문적으로 이해하는 모델도 있습니다. 이러한 모델은 이미지와 문장의 의미를 해석하고 이해할 수 있습니다.


텍스트 모델과 이미지 모델을 결합하면 다양한 형태의 데이터를 이해하고 거의 모든 것을 이해할 수 있는 AI가 탄생할 것입니다.


그러나 이러한 모델의 기능은 사물만 이해할 수 있기 때문에 언뜻 보기에는 제한적으로 보일 수 있습니다. 하지만 이 모델이 물리적 세계에서 움직일 수 있는 로봇 시스템과 통합된다면 어떨까요? 이것이 PaLM-E가 들어오는 곳입니다.


Google의 PaLM-E AI 모델이란 무엇입니까?

Google의 최신 출판물인 PaLM-E는 구현된 다중 모달 언어 모델 입니다.


즉, ViT 모델과 PaLM 모델 각각의 이미지와 텍스트를 포함한 다양한 유형의 데이터를 해석하고 이해하고, 이 정보를 로봇 손을 통해 동작으로 변환할 수 있는 모델이라는 의미입니다.


영상에서 자세히 알아보세요…