Các mô hình AI gần đây như ChatGPT và MidjTHER đã thể hiện những khả năng ấn tượng trong việc tạo văn bản và hình ảnh.
Tuy nhiên, cũng có những mô hình chuyên hiểu những đầu vào này, chẳng hạn như Vision Transformers (ViT) cho hình ảnh và mô hình ngôn ngữ Pathways (PaLM) cho văn bản. Những mô hình này có thể giải thích và hiểu ý nghĩa của hình ảnh và câu.
Kết hợp cả mô hình văn bản và hình ảnh sẽ tạo ra một AI có thể hiểu các dạng dữ liệu khác nhau và có thể hiểu gần như mọi thứ.
Tuy nhiên, khả năng của một mô hình như vậy thoạt nhìn có vẻ hạn chế, vì nó chỉ có thể hiểu mọi thứ. Nhưng, nếu mô hình này được tích hợp với một hệ thống robot có thể di chuyển trong thế giới vật chất thì sao? Đây là lúc PaLM-E phát huy tác dụng.
Ấn phẩm mới nhất của Google, PaLM-E, là một mô hình ngôn ngữ đa phương thức được thể hiện .
Điều này có nghĩa đây là một mô hình có thể giải thích và hiểu các loại dữ liệu khác nhau, bao gồm hình ảnh và văn bản từ các mô hình ViT và PaLM tương ứng, đồng thời chuyển đổi thông tin này thành hành động thông qua bàn tay rô-bốt.
Tìm hiểu thêm trong video…