paint-brush
Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る@textmodels
新しい歴史

Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る

長すぎる; 読むには

Mixtral 8x7B は、常識的推論、数学、コード生成など、数多くのベンチマークで Llama 2 70B および GPT-3.5 を上回っています。わずか 13B のアクティブ パラメータで、Mixtral は同等以上のパフォーマンスを実現しながら、他の競合製品よりも効率的です。47B パラメータという容量は小さいものの、Mixtral は MMLU などのメトリクスで優れており、さまざまなタスクで強力なパフォーマンスを発揮するため、言語モデリング アプリケーションに最適です。
featured image - Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

リンク一覧

要約と1. はじめに

2 アーキテクチャの詳細と 2.1 専門家の疎な混合

3 件の結果

3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク

4 命令の微調整

5 ルーティング分析

6 結論、謝辞、参考文献

3 件の結果

Mixtral と Llama を比較し、公平な比較のために独自の評価パイプラインですべてのベンチマークを再実行します。次のように分類されるさまざまなタスクでパフォーマンスを測定します。


• Commonsense Reasoning (0-shot): Hellaswag [32]、Winogrande [26]、PIQA [3]、SIQA [27]、OpenbookQA [22]、ARC-Easy、ARC-Challenge [8]、CommonsenseQA [30]


• 世界知識(5回): NaturalQuestions [20]、TriviaQA [19]


• 読解力(0点): BoolQ [7]、QuAC [5]


• 数学: GSM8K [9] (8ショット)、maj@8、MATH [17] (4ショット)、maj@4


• コード:ヒューマニバル [4] (0発) および MBPP [1] (3発)


• 人気の集計結果: MMLU [16] (5回)、BBH [29] (3回)、AGI Eval [34] (3~5回、英語の多肢選択問題のみ)


図 2: さまざまなベンチマークにおける Mixtral とさまざまな Llama モデルのパフォーマンス。正確な比較のために、すべてのモデルは評価パイプラインを使用してすべてのメトリックで再評価されました。Mixtral はすべてのベンチマークで Llama 2 70B を上回るか同等です。特に、数学とコード生成で大幅に優れています。


表 2: Mixtral と Llama の比較。Mixtral は、推論中に使用するアクティブ パラメータを 5 分の 1 に抑えながら、ほぼすべての一般的なベンチマークで Llama 2 70B のパフォーマンスを上回るか同等のパフォーマンスを発揮します。


図 3: Mistral (7B/8x7B) と Llama 2 (7B/13B/70B) の MMLU、常識推論、世界知識と読解、数学、コードの結果。Mixtral は、アクティブ パラメータを 5 分の 1 に下げた状態での読解ベンチマークを除き、すべてのベンチマークで Llama 2 70B を大幅に上回っています。コードと数学でも Llama 2 70B を大幅に上回っています。


Mixtral、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B[2]の詳細な結果は表2に示されています。図2は、さまざまなカテゴリでのMixtralとLlamaモデルのパフォーマンスを比較したものです。Mixtralはほとんどの指標でLlama 2 70Bを上回っています。特に、Mixtralはコードと数学のベンチマークで優れたパフォーマンスを示しています。


サイズと効率。コスト パフォーマンス スペクトルにおける Mixtral モデルの効率性を理解するために、パフォーマンスを Llama 2 ファミリーと比較します (図 3 を参照)。Mixtral はスパースな Mixtureof-Experts モデルとして、トークンごとに 130 億のアクティブ パラメータのみを使用します。アクティブ パラメータが 5 分の 1 に抑えられた Mixtral は、ほとんどのカテゴリで Llama 2 700 億を上回るパフォーマンスを発揮します。


この分析では、推論計算コストに直接比例するアクティブ パラメータ数 (セクション 2.1 を参照) に焦点を当てていますが、メモリ コストとハードウェア使用率は考慮していません。Mixtral を提供するためのメモリ コストは、そのスパース パラメータ数 47B に比例しますが、それでも Llama 2 の 70B よりは小さいです。デバイス使用率に関しては、ルーティング メカニズムと、デバイスごとに複数のエキスパートを実行するときにメモリ負荷が増加するため、SMoEs レイヤーによって追加のオーバーヘッドが導入されることに注意してください。これらは、十分な演算強度に達することができるバッチ ワークロードに適しています。


Llama 2 70B および GPT-3.5 との比較。表 3 では、Llama 2 70B および GPT-3.5 と比較した Mixtral 8x7B のパフォーマンスを報告しています。Mixtral のパフォーマンスは他の 2 つのモデルと同等かそれ以上であることがわかります。MMLU では、Mixtral は容量が大幅に小さいにもかかわらず (70B と比較して 47B トークン)、より優れたパフォーマンスを発揮します。MT Bench では、最新の GPT-3.5-Turbo モデルである gpt-3.5-turbo-1106 のパフォーマンスを報告します。


表 3: Mixtral と Llama 2 70B および GPT-3.5 の比較。Mixtral は、ほとんどの指標で Llama 2 70B および GPT-3.5 のパフォーマンスを上回るか、同等です。


評価の違い。一部のベンチマークでは、私たちの評価プロトコルと Llama 2 論文で報告されたものとの間にいくつかの違いがあります。1) MBPP では、手動で検証されたサブセットを使用します。2) TriviaQA では、Wikipedia コンテキストを提供しません。


この論文はCC 4.0ライセンスの下でarxivで公開されています


[2] Llama 2 34Bはオープンソース化されていないため、Llama 1 34Bの結果を報告する。


著者:

(1)アルバート・Q・ジャン

(2)アレクサンドル・サブレイロール

(3)アントワーヌ・ルー

(4)アーサー・メンシュ

(5)ブランシュ・サヴァリー

(6)クリス・バンフォード

(7)デヴェンドラ・シン・チャプロット

(8)ディエゴ・デ・ラス・カサス

(9)エマ・ボウ・ハンナ

(10)フロリアン・ブレッサンド

(11)ジャンナ・レンゲル

(12)ギヨーム・ブール

(13)ギヨーム・ランプル

(14)レリオ・ルナール・ラヴォー

(15)ルシール・ソルニエ

(16)マリーアンヌ・ラショー

(17)ピエール・ストック

(18)サンディープ・スブラマニアン

(19)ソフィア・ヤン

(20)シモン・アントニアク

(21)テヴェン・ル・スカオ

(22)テオフィル・ジェルヴェ

(23)ティボー・ラヴリル

(24)トーマス・ワン

(25)ティモシー・ラクロワ

(26)ウィリアム・エル・サイード