paint-brush
Mixtral - 32,000 トークンのコンテキスト サイズでトレーニングされた多言語モデル@textmodels
新しい歴史

Mixtral - 32,000 トークンのコンテキスト サイズでトレーニングされた多言語モデル

長すぎる; 読むには

Mixtral は、オープン ウェイトを持つスパース エキスパート混合モデル (SMoE) で、Apache 2.0 でライセンスされています。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。これは、フィードフォワード ブロックが 8 つの異なるパラメーター グループから選択するデコーダーのみのモデルです。
featured image - Mixtral - 32,000 トークンのコンテキスト サイズでトレーニングされた多言語モデル
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)アルバート・Q・ジャン

(2)アレクサンドル・サブレイロール

(3)アントワーヌ・ルー

(4)アーサー・メンシュ

(5)ブランシュ・サヴァリー

(6)クリス・バンフォード

(7)デヴェンドラ・シン・チャプロット

(8)ディエゴ・デ・ラス・カサス

(9)エマ・ボウ・ハンナ

(10)フロリアン・ブレッサンド

(11)ジャンナ・レンゲル

(12)ギヨーム・ブール

(13)ギヨーム・ランプル

(14)レリオ・ルナール・ラヴォー

(15)ルシール・ソルニエ

(16)マリーアンヌ・ラショー

(17)ピエール・ストック

(18)サンディープ・スブラマニアン

(19)ソフィア・ヤン

(20)シモン・アントニアク

(21)テヴェン・ル・スカオ

(22)テオフィル・ジェルヴェ

(23)ティボー・ラヴリル

(24)トーマス・ワン

(25)ティモシー・ラクロワ

(26)ウィリアム・エル・サイード

リンク一覧

要約と1. はじめに

2 アーキテクチャの詳細と 2.1 専門家の疎な混合

3 件の結果

3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク

4 命令の微調整

5 ルーティング分析

6 結論、謝辞、参考文献

抽象的な

Sparse Mixture of Experts (SMoE) 言語モデルである Mixtral 8x7B を紹介します。Mixtral は Mistral 7B と同じアーキテクチャですが、各レイヤーが 8 つのフィードフォワード ブロック (つまり、エキスパート) で構成されている点が異なります。各レイヤーのすべてのトークンに対して、ルーター ネットワークが 2 人のエキスパートを選択して現在の状態を処理し、その出力を結合します。各トークンは 2 人のエキスパートしか認識しませんが、選択されるエキスパートは各タイムステップで異なる場合があります。その結果、各トークンは 47B のパラメーターにアクセスできますが、推論中に使用されるアクティブなパラメーターは 13B のみです。Mixtral は 32k トークンのコンテキスト サイズでトレーニングされ、評価されたすべてのベンチマークで Llama 2 70B および GPT-3.5 を上回るか同等のパフォーマンスを発揮します。特に、Mixtral は数学、コード生成、および多言語ベンチマークで Llama 2 70B を大幅に上回っています。また、指示に従うように微調整されたモデル、Mixtral 8x7B – Instruct も提供しています。これは、人間のベンチマークで GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chat モデルを上回ります。ベース モデルと instruct モデルは両方とも、Apache 2.0 ライセンスの下でリリースされています。


コード: https://github.com/mistralai/mistral-src


ウェブページ: https://mistral.ai/news/mixtral-of-experts/

1 はじめに

本稿では、Apache 2.0 ライセンスのオープン ウェイトを持つスパース エキスパート モデル (SMoE) である Mixtral 8x7B を紹介します。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。Mixtral はトークンごとにパラメーターのサブセットのみを使用するため、バッチ サイズが小さい場合は推論速度が速くなり、バッチ サイズが大きい場合はスループットが高くなります。


Mixtral は、スパースなエキスパート混合ネットワークです。これは、フィードフォワード ブロックが 8 つの異なるパラメータ グループのセットから選択するデコーダーのみのモデルです。各レイヤーで、各トークンに対して、ルーター ネットワークがこれらのグループ (「エキスパート」) の 2 つを選択してトークンを処理し、その出力を加算的に組み合わせます。この手法では、モデルがトークンごとにパラメータの合計セットの一部のみを使用するため、コストとレイテンシを制御しながらモデルのパラメータ数を増やすことができます。


Mixtralは、32kトークンのコンテキストサイズを使用して多言語データで事前トレーニングされています。いくつかのベンチマークで、Llama 2 70BとGPT-3.5のパフォーマンスに匹敵するか、それを上回ります。特に、


図 1: エキスパート混合レイヤー。各入力ベクトルは、ルーターによって 8 つのエキスパートのうち 2 つに割り当てられます。レイヤーの出力は、選択された 2 つのエキスパートの出力の加重合計です。Mixtral では、エキスパートはバニラ トランスフォーマー アーキテクチャと同様に、標準的なフィードフォワード ブロックです。


Mixtral は、数学、コード生成、多言語理解を必要とするタスクにおいて優れた能力を発揮し、これらの領域では Llama 2 70B を大幅に上回っています。実験では、Mixtral は、シーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキスト ウィンドウから情報を正常に取得できることが示されています。


また、教師ありファインチューニングと直接選好最適化[25]を使用して指示に従うように微調整されたチャットモデルであるMixtral 8x7B – Instructも紹介します。そのパフォーマンスは、人間による評価ベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – チャットモデルを大幅に上回っています。Mixtral – Instructは、BBQやBOLDなどのベンチマークでバイアスが減少し、よりバランスの取れた感情プロファイルを示しています。


Mixtral 8x7B と Mixtral 8x7B – Instruct はどちらも Apache 2.0 ライセンス1 に基づいてリリースされており、学術的および商業的な使用は無料です。これにより、幅広いアクセシビリティと多様なアプリケーションの可能性が確保されます。コミュニティが Mixtral を完全にオープンソース スタックで実行できるように、効率的な推論のために Megablocks CUDA カーネルを統合する vLLM プロジェクトに変更を提出しました。Skypilot では、クラウド内の任意のインスタンスに vLLM エンドポイントを展開することもできます。


この論文はCC 4.0ライセンスの下でarxivで公開されています