著者:  （１）アルバート・Q・ジャン （２）アレクサンドル・サブレイロール （３）アントワーヌ・ルー （４）アーサー・メンシュ （５）ブランシュ・サヴァリー （６）クリス・バンフォード （7）デヴェンドラ・シン・チャプロット （８）ディエゴ・デ・ラス・カサス （９）エマ・ボウ・ハンナ （10）フロリアン・ブレッサンド （11）ジャンナ・レンゲル （12）ギヨーム・ブール （13）ギヨーム・ランプル （14）レリオ・ルナール・ラヴォー （15）ルシール・ソルニエ （16）マリーアンヌ・ラショー （17）ピエール・ストック （18）サンディープ・スブラマニアン （19）ソフィア・ヤン （20）シモン・アントニアク （21）テヴェン・ル・スカオ （22）テオフィル・ジェルヴェ （23）ティボー・ラヴリル （24）トーマス・ワン （25）ティモシー・ラクロワ （26）ウィリアム・エル・サイード リンク一覧 要約と1. はじめに 2 アーキテクチャの詳細と 2.1 専門家の疎な混合 3 件の結果 3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク 4 命令の微調整 5 ルーティング分析 6 結論、謝辞、参考文献 抽象的な Sparse Mixture of Experts (SMoE) 言語モデルである Mixtral 8x7B を紹介します。Mixtral は Mistral 7B と同じアーキテクチャですが、各レイヤーが 8 つのフィードフォワード ブロック (つまり、エキスパート) で構成されている点が異なります。各レイヤーのすべてのトークンに対して、ルーター ネットワークが 2 人のエキスパートを選択して現在の状態を処理し、その出力を結合します。各トークンは 2 人のエキスパートしか認識しませんが、選択されるエキスパートは各タイムステップで異なる場合があります。その結果、各トークンは 47B のパラメーターにアクセスできますが、推論中に使用されるアクティブなパラメーターは 13B のみです。Mixtral は 32k トークンのコンテキスト サイズでトレーニングされ、評価されたすべてのベンチマークで Llama 2 70B および GPT-3.5 を上回るか同等のパフォーマンスを発揮します。特に、Mixtral は数学、コード生成、および多言語ベンチマークで Llama 2 70B を大幅に上回っています。また、指示に従うように微調整されたモデル、Mixtral 8x7B – Instruct も提供しています。これは、人間のベンチマークで GPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – chat モデルを上回ります。ベース モデルと instruct モデルは両方とも、Apache 2.0 ライセンスの下でリリースされています。 : https://github.com/mistralai/mistral-src コード : https://mistral.ai/news/mixtral-of-experts/ ウェブページ  1 はじめに 本稿では、Apache 2.0 ライセンスのオープン ウェイトを持つスパース エキスパート モデル (SMoE) である Mixtral 8x7B を紹介します。Mixtral は、ほとんどのベンチマークで Llama 2 70B および GPT-3.5 よりも優れています。Mixtral はトークンごとにパラメーターのサブセットのみを使用するため、バッチ サイズが小さい場合は推論速度が速くなり、バッチ サイズが大きい場合はスループットが高くなります。  Mixtral は、スパースなエキスパート混合ネットワークです。これは、フィードフォワード ブロックが 8 つの異なるパラメータ グループのセットから選択するデコーダーのみのモデルです。各レイヤーで、各トークンに対して、ルーター ネットワークがこれらのグループ (「エキスパート」) の 2 つを選択してトークンを処理し、その出力を加算的に組み合わせます。この手法では、モデルがトークンごとにパラメータの合計セットの一部のみを使用するため、コストとレイテンシを制御しながらモデルのパラメータ数を増やすことができます。  Mixtralは、32kトークンのコンテキストサイズを使用して多言語データで事前トレーニングされています。いくつかのベンチマークで、Llama 2 70BとGPT-3.5のパフォーマンスに匹敵するか、それを上回ります。特に、   Mixtral は、数学、コード生成、多言語理解を必要とするタスクにおいて優れた能力を発揮し、これらの領域では Llama 2 70B を大幅に上回っています。実験では、Mixtral は、シーケンスの長さやシーケンス内の情報の位置に関係なく、32k トークンのコンテキスト ウィンドウから情報を正常に取得できることが示されています。 また、教師ありファインチューニングと直接選好最適化[25]を使用して指示に従うように微調整されたチャットモデルであるMixtral 8x7B – Instructも紹介します。そのパフォーマンスは、人間による評価ベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B – チャットモデルを大幅に上回っています。Mixtral – Instructは、BBQやBOLDなどのベンチマークでバイアスが減少し、よりバランスの取れた感情プロファイルを示しています。  Mixtral 8x7B と Mixtral 8x7B – Instruct はどちらも Apache 2.0 ライセンス1 に基づいてリリースされており、学術的および商業的な使用は無料です。これにより、幅広いアクセシビリティと多様なアプリケーションの可能性が確保されます。コミュニティが Mixtral を完全にオープンソース スタックで実行できるように、効率的な推論のために Megablocks CUDA カーネルを統合する vLLM プロジェクトに変更を提出しました。Skypilot では、クラウド内の任意のインスタンスに vLLM エンドポイントを展開することもできます。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

このオーディオは、ストーリーの元の言語で制作されています。

Mixtral - 32,000 トークンのコンテキストサイズでトレーニングされた多言語モデル

About Author

コメント

ラベル

この記事は

Related Stories

Telegram: クリプト島と本土を結ぶ橋

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

State of the Noonion: A New Era For Brands and Writers

Telegram: クリプト島と本土を結ぶ橋

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

タップして稼ぐ：テレグラムはソラナより先に次の100億人の暗号通貨ユーザーを獲得する可能性がある

State of the Noonion: A New Era For Brands and Writers

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

Mixtral - 32,000 トークンのコンテキスト サイズでトレーニングされた多言語モデル

About Author

コメント

ラベル

この記事は

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps

Mixtral - 32,000 トークンのコンテキストサイズでトレーニングされた多言語モデル