この論文は、CC 4.0 ライセンスに基づいて arxiv で入手できます。
著者:
(1) Google のジェミニ チーム。
このレポートでは、画像、音声、ビデオ、テキストの理解にわたって優れた機能を発揮するマルチモーダル モデルの新しいファミリーである Gemini を紹介します。 Gemini ファミリは、Ultra、Pro、および Nano サイズで構成されており、複雑な推論タスクからデバイス上のメモリに制約のあるユースケースに至るまでのアプリケーションに適しています。幅広いベンチマークでの評価により、当社の最も高性能な Gemini Ultra モデルは、これらのベンチマークのうち 32 個のうち 30 個で最先端を進歩していることが示されています。特に、十分に研究された試験ベンチマーク MMLU で人間による専門家のパフォーマンスを達成した最初のモデルです。そして、調査した 20 のマルチモーダル ベンチマークのすべてにおいて最先端の技術を向上させました。私たちは、クロスモーダル推論と言語理解における Gemini モデルの新機能により、さまざまなユースケースが可能になると信じており、それらをユーザーに責任を持って導入するためのアプローチについて説明します。
Google で開発された高機能マルチモーダル モデルのファミリーである Gemini を紹介します。私たちは、各モダリティにわたる強力なジェネラリスト能力と、それぞれの領域における最先端の理解および推論パフォーマンスの両方を備えたモデルを構築することを目的として、画像、音声、ビデオ、およびテキスト データにわたって共同で Gemini をトレーニングしました。
最初のバージョンである Gemini 1.0 には 3 つのサイズがあります。非常に複雑なタスク用の Ultra、拡張されたパフォーマンスと大規模な導入可能性のための Pro、オンデバイス アプリケーション用の Nano。各サイズは、さまざまな計算上の制限やアプリケーション要件に対処するために特別に調整されています。私たちは、言語、コーディング、推論、マルチモーダル タスクの幅広い範囲をカバーする、内部および外部のベンチマークの包括的なスイートで Gemini モデルのパフォーマンスを評価します。
Gemini は大規模言語モデリングの最先端を進歩します (Anil et al., 2023; Brown et al., 2020; Chowdhery et al., 2023; Hoffmann et al., 2022; OpenAI, 2023a; Radford et al., 2023) al., 2019; Rae et al., 2021)、画像理解(Alayrac et al., 2022; Chen et al., 2022; Dosovitskiy et al., 2020; OpenAI, 2023b; Reed et al., 2022; Yu et al., 2022; Yu et al., 2022 al., 2022a)、音声処理(Radford et al., 2023; Zhang et al., 2023)、およびビデオ理解(Alayrac et al., 2022; Chen et al., 2023)。また、シーケンス モデルに関する研究 (Sutskever et al.、2014)、ニューラル ネットワークに基づく深層学習の研究の長い歴史 (LeCun et al.、2015)、および機械学習分散システム (Barham et al.、2015) にも基づいています。 2022; Bradbury et al., 2018; Dean et al., 2012)により、大規模なトレーニングが可能になります。
当社の最も有能なモデルである Gemini Ultra は、当社がレポートする 32 のベンチマークのうち 30 で新しい最先端の結果を達成しています。これには、人気のあるテキストおよび推論ベンチマーク 12 件中 10 件、画像理解ベンチマーク 9 件中 9 件、ビデオ理解ベンチマーク 6 件中 6 件が含まれます。 、音声認識および音声翻訳ベンチマークの 5 つのうち 5 つです。 Gemini Ultra は、一連の試験を通じて知識と推論をテストする著名なベンチマークである MMLU (Hendrycks et al., 2021a) で人間の専門家と同等のパフォーマンスを 90% 以上のスコアで達成した最初のモデルです。テキストを超えて、Gemini Ultra は、困難なマルチモーダル推論タスクにおいて顕著な進歩を遂げています。たとえば、最近の MMMU ベンチマーク (Yue et al., 2023) では、大学レベルの主題知識と慎重な推論を必要とする複数の専門分野のタスクにおける画像に関する質問で構成され、Gemini Ultra は新しい最先端のスコアを達成しました。 62.4% と、以前の最高のモデルを 5 パーセントポイント以上上回りました。これにより、ビデオの質問応答と音声理解のベンチマークのパフォーマンスが均一に向上します。
定性的評価では、優れたクロスモーダル推論機能が実証され、モデルが音声、画像、テキストの入力シーケンスをネイティブに理解して推論できるようになります (図 5 および表 13 を参照)。図 1 に示されている教育現場を例として考えてみましょう。教師が斜面を滑るスキーヤーの物理問題を描き、生徒がその解決策に取り組みました。 Gemini のマルチモーダル推論機能を使用して、モデルは乱雑な手書きを理解し、問題の定式化を正確に理解し、問題と解決策の両方を数学的な組版に変換し、生徒が問題を解決する際に間違った推論の特定のステップを特定して、問題に対して練り上げられた正しい解決策を提供します。これにより、エキサイティングな教育の可能性が開かれ、Gemini モデルの新しいマルチモーダルおよび推論機能は、多くの分野にわたって劇的な応用が可能であると私たちは信じています。
大規模な言語モデルの推論機能は、より複雑な複数ステップの問題に対処できるジェネラリスト エージェントの構築に向けて有望です。 AlphaCode チームは、Gemini を活用した新しいエージェントである AlphaCode 2 (Leblond et al、2023) を構築しました。これは、Gemini の推論機能と検索およびツールの使用を組み合わせて、競技プログラミングの問題解決に優れています。 AlphaCode 2 は、Codeforces 競技プログラミング プラットフォームの参加者の上位 15% 以内にランクされており、上位 50% にあった最先端の以前の製品と比べて大幅に改善されています (Li et al., 2022)。
同時に、オンデバイス展開を対象とした一連の小型モデルである Gemini Nano を使用して、効率の最前線を前進させます。これらのモデルは、要約、読解、テキスト補完タスクなどのデバイス上のタスクに優れており、推論、STEM、コーディング、マルチモーダル、および多言語タスクにおいて、そのサイズに比べて優れた能力を示します。
次のセクションでは、最初にモデル アーキテクチャ、トレーニング インフラストラクチャ、トレーニング データセットの概要を説明します。次に、Gemini モデル ファミリの詳細な評価を示します。これには、テキスト、コード、画像、オーディオ、ビデオにわたる、十分に研究されたベンチマークと人間の好みの評価が含まれます。これには、英語のパフォーマンスと多言語機能の両方が含まれます。また、影響評価のプロセス、モデル ポリシーの開発、評価、展開決定前の危害の軽減など、責任ある展開へのアプローチ [2] についても説明します。最後に、Gemini のより広範な影響、その限界とその潜在的な応用、つまり AI における研究とイノベーションの新時代への道を開くことについて説明します。
[2] Gemini Ultra モデルの一般提供に先立って、このレポートをさらに詳細に更新する予定です。