リンク一覧 要約と1. はじめに 2 アーキテクチャの詳細と 2.1 専門家の疎な混合 3 件の結果 3.1 多言語ベンチマーク、3.2 長距離パフォーマンス、3.3 バイアスベンチマーク 4 命令の微調整 5 ルーティング分析 6 結論、謝辞、参考文献 3 件の結果 Mixtral と Llama を比較し、公平な比較のために独自の評価パイプラインですべてのベンチマークを再実行します。次のように分類されるさまざまなタスクでパフォーマンスを測定します。    Hellaswag [32]、Winogrande [26]、PIQA [3]、SIQA [27]、OpenbookQA [22]、ARC-Easy、ARC-Challenge [8]、CommonsenseQA [30] • Commonsense Reasoning (0-shot):    NaturalQuestions [20]、TriviaQA [19] • 世界知識（5回）：    BoolQ [7]、QuAC [5] • 読解力（0点）：    GSM8K [9] (8ショット)、maj@8、MATH [17] (4ショット)、maj@4 • 数学:   ヒューマニバル [4] (0発) および MBPP [1] (3発) • コード:    MMLU [16] (5回)、BBH [29] (3回)、AGI Eval [34] (3～5回、英語の多肢選択問題のみ)  • 人気の集計結果:  Mixtral、Mistral 7B、Llama 2 7B/13B/70B、Llama 1 34B[2]の詳細な結果は表2に示されています。図2は、さまざまなカテゴリでのMixtralとLlamaモデルのパフォーマンスを比較したものです。Mixtralはほとんどの指標でLlama 2 70Bを上回っています。特に、Mixtralはコードと数学のベンチマークで優れたパフォーマンスを示しています。 コスト パフォーマンス スペクトルにおける Mixtral モデルの効率性を理解するために、パフォーマンスを Llama 2 ファミリーと比較します (図 3 を参照)。Mixtral はスパースな Mixtureof-Experts モデルとして、トークンごとに 130 億のアクティブ パラメータのみを使用します。アクティブ パラメータが 5 分の 1 に抑えられた Mixtral は、ほとんどのカテゴリで Llama 2 700 億を上回るパフォーマンスを発揮します。 サイズと効率。 この分析では、推論計算コストに直接比例するアクティブ パラメータ数 (セクション 2.1 を参照) に焦点を当てていますが、メモリ コストとハードウェア使用率は考慮していません。Mixtral を提供するためのメモリ コストは、そのスパース パラメータ数 47B に比例しますが、それでも Llama 2 の 70B よりは小さいです。デバイス使用率に関しては、ルーティング メカニズムと、デバイスごとに複数のエキスパートを実行するときにメモリ負荷が増加するため、SMoEs レイヤーによって追加のオーバーヘッドが導入されることに注意してください。これらは、十分な演算強度に達することができるバッチ ワークロードに適しています。  Llama 2 70B および GPT-3.5 との比較。表 3 では、Llama 2 70B および GPT-3.5 と比較した Mixtral 8x7B のパフォーマンスを報告しています。Mixtral のパフォーマンスは他の 2 つのモデルと同等かそれ以上であることがわかります。MMLU では、Mixtral は容量が大幅に小さいにもかかわらず (70B と比較して 47B トークン)、より優れたパフォーマンスを発揮します。MT Bench では、最新の GPT-3.5-Turbo モデルである gpt-3.5-turbo-1106 のパフォーマンスを報告します。  一部のベンチマークでは、私たちの評価プロトコルと Llama 2 論文で報告されたものとの間にいくつかの違いがあります。1) MBPP では、手動で検証されたサブセットを使用します。2) TriviaQA では、Wikipedia コンテキストを提供しません。 評価の違い。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています  [2] Llama 2 34Bはオープンソース化されていないため、Llama 1 34Bの結果を報告する。 著者:  （１）アルバート・Q・ジャン （２）アレクサンドル・サブレイロール （３）アントワーヌ・ルー （４）アーサー・メンシュ （５）ブランシュ・サヴァリー （６）クリス・バンフォード （7）デヴェンドラ・シン・チャプロット （８）ディエゴ・デ・ラス・カサス （９）エマ・ボウ・ハンナ （10）フロリアン・ブレッサンド （11）ジャンナ・レンゲル （12）ギヨーム・ブール （13）ギヨーム・ランプル （14）レリオ・ルナール・ラヴォー （15）ルシール・ソルニエ （16）マリーアンヌ・ラショー （17）ピエール・ストック （18）サンディープ・スブラマニアン （19）ソフィア・ヤン （20）シモン・アントニアク （21）テヴェン・ル・スカオ （22）テオフィル・ジェルヴェ （23）ティボー・ラヴリル （24）トーマス・ワン （25）ティモシー・ラクロワ （26）ウィリアム・エル・サイード

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

このオーディオは、ストーリーの元の言語で制作されています。

Mixtral は複数のベンチマークで Llama と GPT-3.5 を上回る

About Author

コメント

ラベル

この記事は

Related Stories

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

目に見えない層: ユーザーインタビューがかけがえのない資産である理由

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

HackerNoon Coded: HackerNoonが最も活発に活動している上位10カ国

目に見えない層: ユーザーインタビューがかけがえのない資産である理由

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps