paint-brush
PaLM-E của Google (AI Robot) có thể nhìn và hiểu ngôn ngữtừ tác giả@whatsai
1,860 lượt đọc
1,860 lượt đọc

PaLM-E của Google (AI Robot) có thể nhìn và hiểu ngôn ngữ

từ tác giả Louis Bouchard1m2023/03/24
Read on Terminal Reader

dài quá đọc không nổi

PaLM-E là một mô hình ngôn ngữ đa phương thức được thể hiện. Đây là một mô hình có thể diễn giải và hiểu các loại dữ liệu khác nhau, bao gồm hình ảnh và văn bản từ các mô hình ViT và PaLM tương ứng, đồng thời chuyển đổi thông tin này thành hành động thông qua một bàn tay rô-bốt. Tìm hiểu thêm trong video…
featured image - PaLM-E của Google (AI Robot) có thể nhìn và hiểu ngôn ngữ
Louis Bouchard HackerNoon profile picture

Các mô hình AI gần đây như ChatGPTMidjTHER đã thể hiện những khả năng ấn tượng trong việc tạo văn bản và hình ảnh.


Tuy nhiên, cũng có những mô hình chuyên hiểu những đầu vào này, chẳng hạn như Vision Transformers (ViT) cho hình ảnh và mô hình ngôn ngữ Pathways (PaLM) cho văn bản. Những mô hình này có thể giải thích và hiểu ý nghĩa của hình ảnh và câu.


Kết hợp cả mô hình văn bản và hình ảnh sẽ tạo ra một AI có thể hiểu các dạng dữ liệu khác nhau và có thể hiểu gần như mọi thứ.


Tuy nhiên, khả năng của một mô hình như vậy thoạt nhìn có vẻ hạn chế, vì nó chỉ có thể hiểu mọi thứ. Nhưng, nếu mô hình này được tích hợp với một hệ thống robot có thể di chuyển trong thế giới vật chất thì sao? Đây là lúc PaLM-E phát huy tác dụng.


Mô hình AI PaLM-E của Google là gì?

Ấn phẩm mới nhất của Google, PaLM-E, là một mô hình ngôn ngữ đa phương thức được thể hiện .


Điều này có nghĩa đây là một mô hình có thể giải thích và hiểu các loại dữ liệu khác nhau, bao gồm hình ảnh và văn bản từ các mô hình ViT và PaLM tương ứng, đồng thời chuyển đổi thông tin này thành hành động thông qua bàn tay rô-bốt.


Tìm hiểu thêm trong video…