Jan 01, 1970
ChatGPTやMidjourneyなどの最近の AI モデルでは、テキストや画像を生成する優れた機能が紹介されています。
ただし、画像用の Vision Transformers (ViT) やテキスト用の Pathways 言語モデル (PaLM) など、これらの入力の理解に特化したモデルもあります。これらのモデルは、画像や文章の意味を解釈して理解することができます。
テキスト モデルと画像モデルの両方を組み合わせることで、さまざまな形式のデータを理解し、ほぼすべてを理解できる AI が実現します。
ただし、そのようなモデルの機能は、物事を理解することしかできないため、一見制限されているように見えるかもしれません。しかし、このモデルが物理世界を移動できるロボット システムと統合されている場合はどうなるでしょうか。ここで、PaLM-E の出番です。
Google の最新の出版物、PaLM-E は、具現化されたマルチモーダル言語モデルです。
これは、ViT モデルと PaLM モデルのそれぞれから画像とテキストを含むさまざまなタイプのデータを解釈して理解し、この情報をロボットハンドを介してアクションに変換できるモデルであることを意味します。
詳しくは動画で…