paint-brush
GoogleのPaLM-E(AIロボット)は言語を見て理解できる@whatsai
1,860 測定値
1,860 測定値

GoogleのPaLM-E(AIロボット)は言語を見て理解できる

Louis Bouchard1m2023/03/24
Read on Terminal Reader

長すぎる; 読むには

PaLM-E は、具現化されたマルチモーダル言語モデルです。 ViTモデルとPaLMモデルそれぞれの画像やテキストなど、さまざまな種類のデータを解釈して理解し、ロボットハンドを介してこの情報をアクションに変換できるモデルです。詳しくは動画で…
featured image - GoogleのPaLM-E(AIロボット)は言語を見て理解できる
Louis Bouchard HackerNoon profile picture

ChatGPTMidjourneyなどの最近の AI モデルでは、テキストや画像を生成する優れた機能が紹介されています。


ただし、画像用の Vision Transformers (ViT) やテキスト用の Pathways 言語モデル (PaLM) など、これらの入力の理解に特化したモデルもあります。これらのモデルは、画像や文章の意味を解釈して理解することができます。


テキスト モデルと画像モデルの両方を組み合わせることで、さまざまな形式のデータを理解し、ほぼすべてを理解できる AI が実現します。


ただし、そのようなモデルの機能は、物事を理解することしかできないため、一見制限されているように見えるかもしれません。しかし、このモデルが物理世界を移動できるロボット システムと統合されている場合はどうなるでしょうか。ここで、PaLM-E の出番です。


Google の PaLM-E AI モデルとは?

Google の最新の出版物、PaLM-E は、具現化されたマルチモーダル言語モデルです。


これは、ViT モデルと PaLM モデルのそれぞれから画像とテキストを含むさまざまなタイプのデータを解釈して理解し、この情報をロボットハンドを介してアクションに変換できるモデルであることを意味します。


詳しくは動画で…