3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク
Mixtral と Llama を比較し、公平な比較のために独自の評価パイプラインですべてのベンチマークを再実行します。次のように分類されるさまざまなタスクでパフォーマンスを測定します。
• Commonsense Reasoning (0-shot): Hellaswag [32]、Winogrande [26]、PIQA [3]、SIQA [27]、OpenbookQA [22]、ARC-Easy、ARC-Challenge [8]、CommonsenseQA [30]
• 世界知識(5回): NaturalQuestions [20]、TriviaQA [19]
• 読解力(0点): BoolQ [7]、QuAC [5]
• 数学: GSM8K [9] (8ショット)、maj@8、MATH [17] (4ショット)、maj@4
• コード:ヒューマニバル [4] (0発) および MBPP [1] (3発)
• 人気の集計結果: MMLU [16] (5回)、BBH [29] (3回)、AGI Eval [34] (3~5回、英語の多肢選択問題のみ)
Mixtral、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B[2]の詳細な結果は表2に示されています。図2は、さまざまなカテゴリでのMixtralとLlamaモデルのパフォーマンスを比較したものです。Mixtralはほとんどの指標でLlama 2 70Bを上回っています。特に、Mixtralはコードと数学のベンチマークで優れたパフォーマンスを示しています。
サイズと効率。コスト パフォーマンス スペクトルにおける Mixtral モデルの効率性を理解するために、パフォーマンスを Llama 2 ファミリーと比較します (図 3 を参照)。Mixtral はスパースな Mixtureof-Experts モデルとして、トークンごとに 130 億のアクティブ パラメータのみを使用します。アクティブ パラメータが 5 分の 1 に抑えられた Mixtral は、ほとんどのカテゴリで Llama 2 700 億を上回るパフォーマンスを発揮します。
この分析では、推論計算コストに直接比例するアクティブ パラメータ数 (セクション 2.1 を参照) に焦点を当てていますが、メモリ コストとハードウェア使用率は考慮していません。Mixtral を提供するためのメモリ コストは、そのスパース パラメータ数 47B に比例しますが、それでも Llama 2 の 70B よりは小さいです。デバイス使用率に関しては、ルーティング メカニズムと、デバイスごとに複数のエキスパートを実行するときにメモリ負荷が増加するため、SMoEs レイヤーによって追加のオーバーヘッドが導入されることに注意してください。これらは、十分な演算強度に達することができるバッチ ワークロードに適しています。
Llama 2 70B および GPT-3.5 との比較。表 3 では、Llama 2 70B および GPT-3.5 と比較した Mixtral 8x7B のパフォーマンスを報告しています。Mixtral のパフォーマンスは他の 2 つのモデルと同等かそれ以上であることがわかります。MMLU では、Mixtral は容量が大幅に小さいにもかかわらず (70B と比較して 47B トークン)、より優れたパフォーマンスを発揮します。MT Bench では、最新の GPT-3.5-Turbo モデルである gpt-3.5-turbo-1106 のパフォーマンスを報告します。
評価の違い。一部のベンチマークでは、私たちの評価プロトコルと Llama 2 論文で報告されたものとの間にいくつかの違いがあります。1) MBPP では、手動で検証されたサブセットを使用します。2) TriviaQA では、Wikipedia コンテキストを提供しません。
この論文はCC 4.0ライセンスの下でarxivで公開されています。
[2] Llama 2 34Bはオープンソース化されていないため、Llama 1 34Bの結果を報告する。
著者:
(1)アルバート・Q・ジャン
(2)アレクサンドル・サブレイロール
(3)アントワーヌ・ルー
(4)アーサー・メンシュ
(5)ブランシュ・サヴァリー
(6)クリス・バンフォード
(7)デヴェンドラ・シン・チャプロット
(8)ディエゴ・デ・ラス・カサス
(9)エマ・ボウ・ハンナ
(10)フロリアン・ブレッサンド
(11)ジャンナ・レンゲル
(12)ギヨーム・ブール
(13)ギヨーム・ランプル
(14)レリオ・ルナール・ラヴォー
(15)ルシール・ソルニエ
(16)マリーアンヌ・ラショー
(17)ピエール・ストック
(18)サンディープ・スブラマニアン
(19)ソフィア・ヤン
(20)シモン・アントニアク
(21)テヴェン・ル・スカオ
(22)テオフィル・ジェルヴェ
(23)ティボー・ラヴリル
(24)トーマス・ワン
(25)ティモシー・ラクロワ
(26)ウィリアム・エル・サイード