ChatGPT ve Midjourney gibi yeni yapay zeka modelleri, metin ve görüntü oluşturma konusunda etkileyici yetenekler sergiledi.
Ancak görüntüler için Vision Transformers (ViT) ve metin için Pathways dil modeli (PaLM) gibi bu girdileri anlama konusunda uzmanlaşmış modeller de vardır. Bu modeller, görsellerin ve cümlelerin anlamlarını yorumlayıp kavrayabilmektedir.
Hem metin hem de görüntü modellerinin birleştirilmesi, çeşitli veri biçimlerini anlayabilen ve neredeyse her şeyi kavrayabilen bir yapay zeka ile sonuçlanacaktır.
Ancak böyle bir modelin yetenekleri ilk bakışta sınırlı gibi görünebilir, çünkü yalnızca bir şeyleri anlayabilir. Peki ya bu model fiziksel dünyada hareket edebilen robotik bir sistemle entegre edilirse? PaLM-E'nin devreye girdiği yer burasıdır.
Google'ın en son yayını PaLM-E, somutlaştırılmış çok modlu bir dil modelidir .
Bu, sırasıyla ViT ve PaLM modellerinden görüntüler ve metinler dahil olmak üzere çeşitli veri türlerini yorumlayıp anlayabilen ve bu bilgileri robotik bir el aracılığıyla eylemlere dönüştürebilen bir model olduğu anlamına gelir.
Videoda daha fazlasını öğrenin…