527 測定値

Mixtral - 32,000 トークンのコンテキストサイズでトレーニングされた多言語モデル

に Writings, Papers and Blogs on Text Models3m2024/10/18

FA-AF

長すぎる; 読むには

Mixtral は、オープンウェイトを持つスパースエキスパート混合モデル (SMoE) で、Apache 2.0 でライセンスされています。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。これは、フィードフォワードブロックが 8 つの異なるパラメーターグループから選択するデコーダーのみのモデルです。

featured image - Mixtral - 32,000 トークンのコンテキストサイズでトレーニングされた多言語モデル

著者:

（１）アルバート・Q・ジャン

（２）アレクサンドル・サブレイロール

（３）アントワーヌ・ルー

（４）アーサー・メンシュ

（５）ブランシュ・サヴァリー

（６）クリス・バンフォード

（7）デヴェンドラ・シン・チャプロット

（８）ディエゴ・デ・ラス・カサス

（９）エマ・ボウ・ハンナ

（10）フロリアン・ブレッサンド

（11）ジャンナ・レンゲル

（12）ギヨーム・ブール

（13）ギヨーム・ランプル

（14）レリオ・ルナール・ラヴォー

（15）ルシール・ソルニエ

（16）マリーアンヌ・ラショー

（17）ピエール・ストック

（18）サンディープ・スブラマニアン

（19）ソフィア・ヤン

（20）シモン・アントニアク

（21）テヴェン・ル・スカオ

（22）テオフィル・ジェルヴェ

（23）ティボー・ラヴリル

（24）トーマス・ワン

（25）ティモシー・ラクロワ

（26）ウィリアム・エル・サイード

リンク一覧

要約と1. はじめに

2 アーキテクチャの詳細と 2.1 専門家の疎な混合

3 件の結果

3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク

4 命令の微調整

5 ルーティング分析

6 結論、謝辞、参考文献

抽象的な

Sparse Mixture of Experts (SMoE) 言語モデルである Mixtral 8x7B を紹介します。Mixtral は Mistral 7B と同じアーキテクチャですが、各レイヤーが 8 つのフィードフォワードブロック (つまり、エキスパート) で構成されている点が異なります。各レイヤーのすべてのトークンに対して、ルーターネットワークが 2 人のエキスパートを選択して現在の状態を処理し、その出力を結合します。各トークンは 2 人のエキスパートしか認識しませんが、選択されるエキスパートは各タイムステップで異なる場合があります。その結果、各トークンは 47B のパラメーターにアクセスできますが、推論中に使用されるアクティブなパラメーターは 13B のみです。Mixtral は 32k トークンのコンテキストサイズでトレーニングされ、評価されたすべてのベンチマークで Llama 2 70B および GPT-3.5 を上回るか同等のパフォーマンスを発揮します。特に、Mixtral は数学、コード生成、および多言語ベンチマークで Llama 2 70B を大幅に上回っています。また、指示に従うように微調整されたモデル、Mixtral 8x7B – Instruct も提供しています。これは、人間のベンチマークで GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chat モデルを上回ります。ベースモデルと instruct モデルは両方とも、Apache 2.0 ライセンスの下でリリースされています。

コード: https://github.com/mistralai/mistral-src

ウェブページ: https://mistral.ai/news/mixtral-of-experts/

1 はじめに

本稿では、Apache 2.0 ライセンスのオープンウェイトを持つスパースエキスパートモデル (SMoE) である Mixtral 8x7B を紹介します。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。Mixtral はトークンごとにパラメーターのサブセットのみを使用するため、バッチサイズが小さい場合は推論速度が速くなり、バッチサイズが大きい場合はスループットが高くなります。

Mixtral は、スパースなエキスパート混合ネットワークです。これは、フィードフォワードブロックが 8 つの異なるパラメータグループのセットから選択するデコーダーのみのモデルです。各レイヤーで、各トークンに対して、ルーターネットワークがこれらのグループ (「エキスパート」) の 2 つを選択してトークンを処理し、その出力を加算的に組み合わせます。この手法では、モデルがトークンごとにパラメータの合計セットの一部のみを使用するため、コストとレイテンシを制御しながらモデルのパラメータ数を増やすことができます。

Mixtralは、32kトークンのコンテキストサイズを使用して多言語データで事前トレーニングされています。いくつかのベンチマークで、Llama 2 70BとGPT-3.5のパフォーマンスに匹敵するか、それを上回ります。特に、

Mixtral は、数学、コード生成、多言語理解を必要とするタスクにおいて優れた能力を発揮し、これらの領域では Llama 2 70B を大幅に上回っています。実験では、Mixtral は、シーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキストウィンドウから情報を正常に取得できることが示されています。

また、教師ありファインチューニングと直接選好最適化[25]を使用して指示に従うように微調整されたチャットモデルであるMixtral 8x7B – Instructも紹介します。そのパフォーマンスは、人間による評価ベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – チャットモデルを大幅に上回っています。Mixtral – Instructは、BBQやBOLDなどのベンチマークでバイアスが減少し、よりバランスの取れた感情プロファイルを示しています。

Mixtral 8x7B と Mixtral 8x7B – Instruct はどちらも Apache 2.0 ライセンス1 に基づいてリリースされており、学術的および商業的な使用は無料です。これにより、幅広いアクセシビリティと多様なアプリケーションの可能性が確保されます。コミュニティが Mixtral を完全にオープンソーススタックで実行できるように、効率的な推論のために Megablocks CUDA カーネルを統合する vLLM プロジェクトに変更を提出しました。Skypilot では、クラウド内の任意のインスタンスに vLLM エンドポイントを展開することもできます。