Jan 01, 1970
最近的人工智能模型,如ChatGPT和Midjourney,已经展示了令人印象深刻的生成文本和图像的能力。
但是,也有专门用于理解这些输入的模型,例如用于图像的 Vision Transformers (ViT) 和用于文本的 Pathways 语言模型 (PaLM)。这些模型可以解释和理解图像和句子的含义。
结合文本和图像模型将产生一个可以理解各种形式的数据并且能够理解几乎所有内容的人工智能。
然而,乍一看,这种模型的能力似乎有限,因为它只能理解事物。但是,如果这个模型与可以在物理世界中移动的机器人系统集成在一起呢?这就是 PaLM-E 的用武之地。
Google 的最新出版物 PaLM-E 是一种具体化的多模态语言模型。
这意味着它是一个可以解释和理解各种类型数据的模型,包括分别来自 ViT 和 PaLM 模型的图像和文本,并通过机械手将这些信息转化为动作。
在视频中了解更多信息……