著者:
(1)アルバート・Q・ジャン
(2)アレクサンドル・サブレイロール
(3)アントワーヌ・ルー
(4)アーサー・メンシュ
(5)ブランシュ・サヴァリー
(6)クリス・バンフォード
(7)デヴェンドラ・シン・チャプロット
(8)ディエゴ・デ・ラス・カサス
(9)エマ・ボウ・ハンナ
(10)フロリアン・ブレッサンド
(11)ジャンナ・レンゲル
(12)ギヨーム・ブール
(13)ギヨーム・ランプル
(14)レリオ・ルナール・ラヴォー
(15)ルシール・ソルニエ
(16)マリーアンヌ・ラショー
(17)ピエール・ストック
(18)サンディープ・スブラマニアン
(19)ソフィア・ヤン
(20)シモン・アントニアク
(21)テヴェン・ル・スカオ
(22)テオフィル・ジェルヴェ
(23)ティボー・ラヴリル
(24)トーマス・ワン
(25)ティモシー・ラクロワ
(26)ウィリアム・エル・サイード
3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク
Sparse Mixture of Experts (SMoE) 言語モデルである Mixtral 8x7B を紹介します。Mixtral は Mistral 7B と同じアーキテクチャですが、各レイヤーが 8 つのフィードフォワード ブロック (つまり、エキスパート) で構成されている点が異なります。各レイヤーのすべてのトークンに対して、ルーター ネットワークが 2 人のエキスパートを選択して現在の状態を処理し、その出力を結合します。各トークンは 2 人のエキスパートしか認識しませんが、選択されるエキスパートは各タイムステップで異なる場合があります。その結果、各トークンは 47B のパラメーターにアクセスできますが、推論中に使用されるアクティブなパラメーターは 13B のみです。Mixtral は 32k トークンのコンテキスト サイズでトレーニングされ、評価されたすべてのベンチマークで Llama 2 70B および GPT-3.5 を上回るか同等のパフォーマンスを発揮します。特に、Mixtral は数学、コード生成、および多言語ベンチマークで Llama 2 70B を大幅に上回っています。また、指示に従うように微調整されたモデル、Mixtral 8x7B – Instruct も提供しています。これは、人間のベンチマークで GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chat モデルを上回ります。ベース モデルと instruct モデルは両方とも、Apache 2.0 ライセンスの下でリリースされています。
コード: https://github.com/mistralai/mistral-src
ウェブページ: https://mistral.ai/news/mixtral-of-experts/
本稿では、Apache 2.0 ライセンスのオープン ウェイトを持つスパース エキスパート モデル (SMoE) である Mixtral 8x7B を紹介します。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。Mixtral はトークンごとにパラメーターのサブセットのみを使用するため、バッチ サイズが小さい場合は推論速度が速くなり、バッチ サイズが大きい場合はスループットが高くなります。
Mixtral は、スパースなエキスパート混合ネットワークです。これは、フィードフォワード ブロックが 8 つの異なるパラメータ グループのセットから選択するデコーダーのみのモデルです。各レイヤーで、各トークンに対して、ルーター ネットワークがこれらのグループ (「エキスパート」) の 2 つを選択してトークンを処理し、その出力を加算的に組み合わせます。この手法では、モデルがトークンごとにパラメータの合計セットの一部のみを使用するため、コストとレイテンシを制御しながらモデルのパラメータ数を増やすことができます。
Mixtralは、32kトークンのコンテキストサイズを使用して多言語データで事前トレーニングされています。いくつかのベンチマークで、Llama 2 70BとGPT-3.5のパフォーマンスに匹敵するか、それを上回ります。特に、
Mixtral は、数学、コード生成、多言語理解を必要とするタスクにおいて優れた能力を発揮し、これらの領域では Llama 2 70B を大幅に上回っています。実験では、Mixtral は、シーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキスト ウィンドウから情報を正常に取得できることが示されています。
また、教師ありファインチューニングと直接選好最適化[25]を使用して指示に従うように微調整されたチャットモデルであるMixtral 8x7B – Instructも紹介します。そのパフォーマンスは、人間による評価ベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – チャットモデルを大幅に上回っています。Mixtral – Instructは、BBQやBOLDなどのベンチマークでバイアスが減少し、よりバランスの取れた感情プロファイルを示しています。
Mixtral 8x7B と Mixtral 8x7B – Instruct はどちらも Apache 2.0 ライセンス1 に基づいてリリースされており、学術的および商業的な使用は無料です。これにより、幅広いアクセシビリティと多様なアプリケーションの可能性が確保されます。コミュニティが Mixtral を完全にオープンソース スタックで実行できるように、効率的な推論のために Megablocks CUDA カーネルを統合する vLLM プロジェクトに変更を提出しました。Skypilot では、クラウド内の任意のインスタンスに vLLM エンドポイントを展開することもできます。
この論文はCC 4.0ライセンスの下でarxivで公開されています。